無(wú)損加速最高5x,EAGLE-2讓RTX 3060的生成速度超過(guò)A100
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:無(wú)損加速最高5x,EAGLE-2讓RTX 3060的生成速度超過(guò)A100
關(guān)鍵字:草稿,模型,節(jié)點(diǎn),語(yǔ)言,階段
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com李堉暉:北京大學(xué)智能學(xué)院碩士,受張弘揚(yáng)老師和張超老師指導(dǎo),研究方向?yàn)榇竽P图铀俸蛯?duì)齊,正在尋找25屆工作機(jī)會(huì)
魏芳蕓:微軟亞研院研究員,研究方向?yàn)榫呱碇悄堋D像生成和AI agents
張超:北京大學(xué)智能學(xué)院研究員,研究方向?yàn)橛?jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)
張弘揚(yáng):滑鐵盧大學(xué)計(jì)算機(jī)學(xué)院、向量研究院助理教授,研究方向?yàn)長(zhǎng)LM加速和AI安全自回歸解碼已經(jīng)成為了大語(yǔ)言模型(LLMs)的事實(shí)標(biāo)準(zhǔn),大語(yǔ)言模型每次前向計(jì)算需要訪問(wèn)它全部的參數(shù),但只能得到一個(gè)token,導(dǎo)致其生成昂貴且緩慢。
今日,一篇題為《EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees》的論文提出了動(dòng)態(tài)草稿樹(shù)投機(jī)采樣,依據(jù)
原文鏈接:無(wú)損加速最高5x,EAGLE-2讓RTX 3060的生成速度超過(guò)A100
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)