再戰(zhàn)Transformer！原作者帶隊(duì)的Mamba 2來(lái)了，新架構(gòu)訓(xùn)練效率大幅提升

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：再戰(zhàn)Transformer！原作者帶隊(duì)的Mamba 2來(lái)了，新架構(gòu)訓(xùn)練效率大幅提升
關(guān)鍵字：矩陣,注意力,狀態(tài),算法,張量
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心報(bào)道
機(jī)器之心編輯部自 2017 年被提出以來(lái)，Transformer 已經(jīng)成為 AI 大模型的主流架構(gòu)，一直穩(wěn)居語(yǔ)言建模方面 C 位。
但隨著模型規(guī)模的擴(kuò)展和需要處理的序列不斷變長(zhǎng)，Transformer 的局限性也逐漸凸顯。一個(gè)很明顯的缺陷是：Transformer 模型中自注意力機(jī)制的計(jì)算量會(huì)隨著上下文長(zhǎng)度的增加呈平方級(jí)增長(zhǎng)。
幾個(gè)月前，Mamba 的出現(xiàn)打破了這一局面，它可以隨上下文長(zhǎng)度的增加實(shí)現(xiàn)線性擴(kuò)展。隨著 Mamba 的發(fā)布，這些狀態(tài)空間模型 (SSM) 在中小型規(guī)模上已經(jīng)實(shí)現(xiàn)了與 Transformers 匹敵，甚至超越 Transformers。
Mamba 的作者只有兩位，一位是卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系助理教授 Albert Gu，另一位是 Together.AI 首席科學(xué)家、普林斯頓大學(xué)計(jì)算機(jī)科學(xué)助理教授 Tri Dao。
Mamba 面世之后的這段時(shí)間里，社區(qū)反應(yīng)熱烈?？上У氖牵琈amba 的論文卻慘遭 ICLR 拒稿，讓一眾研究者頗感意外。
僅僅六個(gè)月后，原作者帶隊(duì)，更強(qiáng)大的 Mamba 2 正式發(fā)布了。論文地址：https://arxiv.org/p

原文鏈接：再戰(zhàn)Transformer！原作者帶隊(duì)的Mamba 2來(lái)了，新架構(gòu)訓(xùn)練效率大幅提升