AIGC動態歡迎閱讀
原標題:五倍吞吐量,性能全面包圍Transformer:新架構Mamba引爆AI圈
文章來源:機器之心
內容字數:7438字
內容摘要:機器之心報道編輯:張倩、蛋醬屹立不倒的 Transformer 迎來了一個強勁競爭者。在別的領域,如果你想形容一個東西非常重要,你可能將其形容為「撐起了某領域的半壁江山」。但在 AI 大模型領域,Transformer 架構不能這么形容,因為它幾乎撐起了「整個江山」。自 2017 年被提出以來,Transformer 已經成為 AI 大模型的主流架構,但隨著模型規模的擴展和需要處理的序列不斷變長,Transformer 的局限性也逐漸凸顯。一個很明顯的缺陷是:Transformer 模型中自注意力機制的計算量會隨著上下文長度的增加呈平方級增長,比如上下文增加 32 倍時,計算量可能會增長 1000 倍,計算效率非常低。為了克服這些缺陷,研究者們開發出了很多注意力機制的高效變體,但這往往以犧牲其有效性特為代價。到目前為止,這些變體都還沒有被證明能在不同領域發揮有效作用。最近,一項名為「Mam…
原文鏈接:點此閱讀原文:五倍吞吐量,性能全面包圍Transformer:新架構Mamba引爆AI圈
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...