Mamba真比Transformer更優(yōu)嗎?Mamba原作者:兩個都要!混合架構(gòu)才是最優(yōu)解

AIGC動態(tài)歡迎閱讀
原標(biāo)題:Mamba真比Transformer更優(yōu)嗎?Mamba原作者:兩個都要!混合架構(gòu)才是最優(yōu)解
關(guān)鍵字:模型,報告,任務(wù),架構(gòu),電話簿
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:喬楊
【新智元導(dǎo)讀】Mamba模型由于匹敵Transformer的巨大潛力,在推出半年多的時間內(nèi)引起了巨大關(guān)注。但在大規(guī)模預(yù)訓(xùn)練的場景下,這兩個架構(gòu)還未有「一較高低」的機(jī)會。最近,英偉達(dá)、CMU、普林斯頓等機(jī)構(gòu)聯(lián)合發(fā)表的實證研究論文填補(bǔ)了這個空白。去年12月,CMU、普林斯頓的兩位華人學(xué)者Albert Gu和Tri Dao一舉推出了Mamba架構(gòu),向Transformer多年的霸主地位發(fā)起挑戰(zhàn)。
論文地址:https://arxiv.org/abs/2312.00752
完全拋棄注意力機(jī)制和MLP模塊、上下文長度線性縮放、推理速度比Transformer快5倍…這些特點讓所有人都為之一振,Jim Fan大佬也發(fā)推贊嘆「為Transformer的研究感到興奮」。
論文發(fā)表后的6個月中,兩位作者發(fā)現(xiàn),雖然Mamba很強(qiáng)大,但是大家依舊更關(guān)注各種Transformer的變體。
畢竟整個學(xué)術(shù)社區(qū)在注意力機(jī)制上深耕多年,從模型、標(biāo)準(zhǔn)庫到算子、GPU,此時完全拋棄之前的研究、轉(zhuǎn)向Mamba的SSM不太現(xiàn)實,也讓Mamba架構(gòu)顯得非常格格不入。
于是,我們看到Mamba-2的論
原文鏈接:Mamba真比Transformer更優(yōu)嗎?Mamba原作者:兩個都要!混合架構(gòu)才是最優(yōu)解
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。

粵公網(wǎng)安備 44011502001135號