直接擴展到無限長,谷歌Infini-Transformer終結(jié)上下文長度之爭
AIGC動態(tài)歡迎閱讀
原標題:直接擴展到無限長,谷歌Infini-Transformer終結(jié)上下文長度之爭
關(guān)鍵字:注意力,上下文,報告,內(nèi)存,模型
文章來源:機器之心
內(nèi)容字數(shù):5751字
內(nèi)容摘要:
機器之心報道
編輯:小舟、陳萍不知 Gemini 1.5 Pro 是否用到了這項技術(shù)。
谷歌又放大招了,發(fā)布下一代 Transformer 模型 Infini-Transformer。
Infini-Transformer 引入了一種有效的方法,可以將基于 Transformer 的大型語言模型 (LLM) 擴展到無限長輸入,而不增加內(nèi)存和計算需求。使用該技術(shù),研究者成功將一個 1B 的模型上下文長度提高到 100 萬;應(yīng)用到 8B 模型上,模型能處理 500K 的書籍摘要任務(wù)。
自 2017 年開創(chuàng)性研究論文《Attention is All You Need》問世以來,Transformer 架構(gòu)就一直主導(dǎo)著生成式人工智能領(lǐng)域。而谷歌對 Transformer 的優(yōu)化設(shè)計最近比較頻繁,幾天前,他們更新了 Transformer 架構(gòu),發(fā)布 Mixture-of-Depths(MoD),改變了以往 Transformer 計算模式。沒過幾天,谷歌又放出了這項新研究。專注 AI 領(lǐng)域的研究者都了解內(nèi)存的重要性,它是智能的基石,可以為 LLM 提供高效的計算。然而,Transformer
原文鏈接:直接擴展到無限長,谷歌Infini-Transformer終結(jié)上下文長度之爭
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺