預(yù)測token速度翻番!Transformer新解碼算法火了,來自小羊駝團(tuán)隊|代碼已開源
AIGC動態(tài)歡迎閱讀
原標(biāo)題:預(yù)測token速度翻番!Transformer新解碼算法火了,來自小羊駝團(tuán)隊|代碼已開源
文章來源:量子位
內(nèi)容字?jǐn)?shù):4604字
內(nèi)容摘要:豐色 發(fā)自 凹非寺量子位 | 公眾號QbitAI小羊駝團(tuán)隊的新研究火了。他們開發(fā)了一種新的解碼算法,可以讓模型預(yù)測100個token數(shù)的速度提高1.5-2.3倍,進(jìn)而加速LLM推理。比如這是同一個模型(LLaMa-2-Chat 7B)面對同一個用戶提問(蘇格拉底采用了哪些方法來挑戰(zhàn)他那個時代的主流思想?)時輸出回答的速度:左邊為原算法,耗時18.12s,每秒約35個token;右邊為該算法,耗時10.4s,每秒約60個token,明顯快了一大截。簡單來說,這是一種并行解碼算法,名叫“Lookahead Decoding”(前向解碼)。它主要利用雅可比(Jacobi)迭代法首次打破自回歸解碼中的順序依賴性(眾所周知,當(dāng)下大模型基本都是基于自回歸的Transformer)。由此無需草稿模型(draft model)或數(shù)據(jù)存儲,就可以減少解碼步驟,加速LLM推理。目前,作者已給出了與huggin…
原文鏈接:點此閱讀原文:預(yù)測token速度翻番!Transformer新解碼算法火了,來自小羊駝團(tuán)隊|代碼已開源
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...