Mamba超強進(jìn)化體一舉顛覆Transformer!單張A100跑140K上下文

AIGC動態(tài)歡迎閱讀
原標(biāo)題:Mamba超強進(jìn)化體一舉顛覆Transformer!單張A100跑140K上下文
關(guān)鍵字:模型,上下文,架構(gòu),吞吐量,長上
文章來源:新智元
內(nèi)容字?jǐn)?shù):5489字
內(nèi)容摘要:
新智元報道編輯:編輯部
【新智元導(dǎo)讀】52B的生產(chǎn)級Mamba大模型來了!這個超強變體Jamba剛剛打破世界紀(jì)錄,它能正面硬剛Transformer,256K超長上下文窗口,吞吐量提升3倍,權(quán)重免費下載。之前引爆了AI圈的Mamba架構(gòu),今天又推出了一版超強變體!
人工智能獨角獸AI21 Labs剛剛開源了Jamba,世界上第一個生產(chǎn)級的Mamba大模型!
Jamba在多項基準(zhǔn)測試中表現(xiàn)亮眼,與目前最強的幾個開源Transformer平起平坐。
特別是對比性能最好的、同為MoE架構(gòu)的Mixtral 8x7B,也互有勝負(fù)。
具體來說它——
是基于全新SSM-Transformer混合架構(gòu)的首個生產(chǎn)級Mamba模型
與Mixtral 8x7B相比,長文本處理吞吐量提高了3倍
實現(xiàn)了256K超長上下文窗口
是同等規(guī)模中,唯一一個能在單張GPU上處理140K上下文的模型
以Apache 2.0開源許可協(xié)議發(fā)布,開放權(quán)重
之前的Mamba因為各種限制,只做到了3B,還被人質(zhì)疑能否接過Transformer的大旗,而同為線性RNN家族的RWKV、Griffin等也只擴(kuò)展到了14B。
——Jamb
原文鏈接:Mamba超強進(jìn)化體一舉顛覆Transformer!單張A100跑140K上下文
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。

粵公網(wǎng)安備 44011502001135號