全新近似注意力機制HyperAttention:對長上下文友好、LLM推理提速50%
AIGC動態(tài)歡迎閱讀
原標題:全新近似注意力機制HyperAttention:對長上下文友好、LLM推理提速50%
文章來源:機器之心
內(nèi)容字數(shù):9661字
內(nèi)容摘要:機器之心報道編輯:大盤雞本文介紹了一項近似注意力機制新研究,耶魯大學(xué)、谷歌研究院等機構(gòu)提出了 HyperAttention,使 ChatGLM2 在 32k 上下文長度上的推理時間快了 50%。Transformer 已經(jīng)成功應(yīng)用于自然語言處理、計算機視覺和時間序列預(yù)測等領(lǐng)域的各種學(xué)習任務(wù)。雖然取得了成功,但這些模型仍面臨著嚴重的可擴展性限制,原因是對其注意力層的精確計算導(dǎo)致了二次(在序列長度上)…
原文鏈接:點此閱讀原文:全新近似注意力機制HyperAttention:對長上下文友好、LLM推理提速50%
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...