全新近似注意力機(jī)制HyperAttention:對長上下文友好、LLM推理提速50%
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:全新近似注意力機(jī)制HyperAttention:對長上下文友好、LLM推理提速50%
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):9661字
內(nèi)容摘要:機(jī)器之心報(bào)道編輯:大盤雞本文介紹了一項(xiàng)近似注意力機(jī)制新研究,耶魯大學(xué)、谷歌研究院等機(jī)構(gòu)提出了 HyperAttention,使 ChatGLM2 在 32k 上下文長度上的推理時(shí)間快了 50%。Transformer 已經(jīng)成功應(yīng)用于自然語言處理、計(jì)算機(jī)視覺和時(shí)間序列預(yù)測等領(lǐng)域的各種學(xué)習(xí)任務(wù)。雖然取得了成功,但這些模型仍面臨著嚴(yán)重的可擴(kuò)展性限制,原因是對其注意力層的精確計(jì)算導(dǎo)致了二次(在序列長度上)…
原文鏈接:點(diǎn)此閱讀原文:全新近似注意力機(jī)制HyperAttention:對長上下文友好、LLM推理提速50%
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...