五倍吞吐量,性能全面包圍Transformer:新架構(gòu)Mamba引爆AI圈

AIGC動態(tài)歡迎閱讀
原標(biāo)題:五倍吞吐量,性能全面包圍Transformer:新架構(gòu)Mamba引爆AI圈
關(guān)鍵字:模型,序列,架構(gòu),線性,研究者
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7438字
內(nèi)容摘要:機(jī)器之心報道編輯:張倩、蛋醬屹立不倒的 Transformer 迎來了一個強(qiáng)勁競爭者。在別的領(lǐng)域,如果你想形容一個東西非常重要,你可能將其形容為「撐起了某領(lǐng)域的半壁江山」。但在 AI 大模型領(lǐng)域,Transformer 架構(gòu)不能這么形容,因為它幾乎撐起了「整個江山」。自 2017 年被提出以來,Transformer 已經(jīng)成為 AI 大模型的主流架構(gòu),但隨著模型規(guī)模的擴(kuò)展和需要處理的序列不斷變長,Transformer 的局限性也逐漸凸顯。一個很明顯的缺陷是:Transformer 模型中自注意力機(jī)制的計算量會隨著上下文長度的增加呈平方級增長,比如上下文增加 32 倍時,計算量可能會增長 1000 倍,計算效率非常低。為了克服這些缺陷,研究者們開發(fā)出了很多注意力機(jī)制的高效變體,但這往往以犧牲其有效性特為代價。到目前為止,這些變體都還沒有被證明能在不同領(lǐng)域發(fā)揮有效作用。最近,一項名為「Mam…
原文鏈接:點此閱讀原文:五倍吞吐量,性能全面包圍Transformer:新架構(gòu)Mamba引爆AI圈
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號