再戰(zhàn)Transformer!原作者帶隊(duì)的Mamba 2來了,新架構(gòu)訓(xùn)練效率大幅提升
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:再戰(zhàn)Transformer!原作者帶隊(duì)的Mamba 2來了,新架構(gòu)訓(xùn)練效率大幅提升
關(guān)鍵字:矩陣,注意力,狀態(tài),算法,張量
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部自 2017 年被提出以來,Transformer 已經(jīng)成為 AI 大模型的主流架構(gòu),一直穩(wěn)居語言建模方面 C 位。
但隨著模型規(guī)模的擴(kuò)展和需要處理的序列不斷變長(zhǎng),Transformer 的局限性也逐漸凸顯。一個(gè)很明顯的缺陷是:Transformer 模型中自注意力機(jī)制的計(jì)算量會(huì)隨著上下文長(zhǎng)度的增加呈平方級(jí)增長(zhǎng)。
幾個(gè)月前,Mamba 的出現(xiàn)打破了這一局面,它可以隨上下文長(zhǎng)度的增加實(shí)現(xiàn)線性擴(kuò)展。隨著 Mamba 的發(fā)布,這些狀態(tài)空間模型 (SSM) 在中小型規(guī)模上已經(jīng)實(shí)現(xiàn)了與 Transformers 匹敵,甚至超越 Transformers。
Mamba 的作者只有兩位,一位是卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系助理教授 Albert Gu,另一位是 Together.AI 首席科學(xué)家、普林斯頓大學(xué)計(jì)算機(jī)科學(xué)助理教授 Tri Dao。
Mamba 面世之后的這段時(shí)間里,社區(qū)反應(yīng)熱烈。可惜的是,Mamba 的論文卻慘遭 ICLR 拒稿,讓一眾研究者頗感意外。
僅僅六個(gè)月后,原作者帶隊(duì),更強(qiáng)大的 Mamba 2 正式發(fā)布了。論文地址:https://arxiv.org/p
原文鏈接:再戰(zhàn)Transformer!原作者帶隊(duì)的Mamba 2來了,新架構(gòu)訓(xùn)練效率大幅提升
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)