Mamba超強進(jìn)化體一舉顛覆Transformer！單張A100跑140K上下文

AIGC動態(tài)2年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標(biāo)題：Mamba超強進(jìn)化體一舉顛覆Transformer！單張A100跑140K上下文
關(guān)鍵字：模型,上下文,架構(gòu),吞吐量,長上
文章來源：新智元
內(nèi)容字?jǐn)?shù)：5489字

內(nèi)容摘要：

新智元報道編輯：編輯部
【新智元導(dǎo)讀】52B的生產(chǎn)級Mamba大模型來了！這個超強變體Jamba剛剛打破世界紀(jì)錄，它能正面硬剛Transformer，256K超長上下文窗口，吞吐量提升3倍，權(quán)重免費下載。之前引爆了AI圈的Mamba架構(gòu)，今天又推出了一版超強變體！
人工智能獨角獸AI21 Labs剛剛開源了Jamba，世界上第一個生產(chǎn)級的Mamba大模型！
Jamba在多項基準(zhǔn)測試中表現(xiàn)亮眼，與目前最強的幾個開源Transformer平起平坐。
特別是對比性能最好的、同為MoE架構(gòu)的Mixtral 8x7B，也互有勝負(fù)。
具體來說它——
是基于全新SSM-Transformer混合架構(gòu)的首個生產(chǎn)級Mamba模型
與Mixtral 8x7B相比，長文本處理吞吐量提高了3倍
實現(xiàn)了256K超長上下文窗口
是同等規(guī)模中，唯一一個能在單張GPU上處理140K上下文的模型
以Apache 2.0開源許可協(xié)議發(fā)布，開放權(quán)重
之前的Mamba因為各種限制，只做到了3B，還被人質(zhì)疑能否接過Transformer的大旗，而同為線性RNN家族的RWKV、Griffin等也只擴(kuò)展到了14B。
——Jamb

原文鏈接：Mamba超強進(jìn)化體一舉顛覆Transformer！單張A100跑140K上下文

聯(lián)系作者

文章來源：新智元
作者微信：AI_era
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展，關(guān)注人機融合、人工智能和機器人對人類社會與文明進(jìn)化的影響，領(lǐng)航中國新智能時代。

閱讀原文