大模型推理效率無損提升3倍,滑鐵盧大學(xué)、北京大學(xué)等機(jī)構(gòu)發(fā)布EAGLE
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:大模型推理效率無損提升3倍,滑鐵盧大學(xué)、北京大學(xué)等機(jī)構(gòu)發(fā)布EAGLE
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5624字
內(nèi)容摘要:機(jī)器之心專欄機(jī)器之心編輯部大語言模型(LLM)被越來越多應(yīng)用于各種領(lǐng)域。然而,它們的文本生成過程既昂貴又緩慢。這種低效率歸因于自回歸解碼的運(yùn)算規(guī)則:每個(gè)詞(token)的生成都需要進(jìn)行一次前向傳播,需要訪問數(shù)十億至數(shù)千億參數(shù)的 LLM。這導(dǎo)致傳統(tǒng)自回歸解碼的速度較慢。近日,滑鐵盧大學(xué)、加拿大向量研究院、北京大學(xué)等機(jī)構(gòu)聯(lián)合發(fā)布 EAGLE,旨在提升大語言模型的推理速度,同時(shí)保證模型輸出文本的分布一致。這種方法外推 LLM 的第二頂層特征向量,能夠顯著提升生成效率。技術(shù)報(bào)告:https://sites.google.com/view/eagle-llm代碼(支持商用 Apache 2.0):https://github.com/SafeAILab/EAGLEEAGLE 具有以下特點(diǎn):比普通自回歸解碼(13B)快 3 倍;比 Lookahead 解碼(13B)快 2 倍;比 Medusa 解碼(…
原文鏈接:點(diǎn)此閱讀原文:大模型推理效率無損提升3倍,滑鐵盧大學(xué)、北京大學(xué)等機(jī)構(gòu)發(fā)布EAGLE
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)