AIGC動態歡迎閱讀
原標題:Mamba超強進化體一舉顛覆Transformer!單張A100跑140K上下文
關鍵字:模型,上下文,架構,吞吐量,長上
文章來源:新智元
內容字數:5489字
內容摘要:
新智元報道編輯:編輯部
【新智元導讀】52B的生產級Mamba大模型來了!這個超強變體Jamba剛剛打破世界紀錄,它能正面硬剛Transformer,256K超長上下文窗口,吞吐量提升3倍,權重免費下載。之前引爆了AI圈的Mamba架構,今天又推出了一版超強變體!
人工智能獨角獸AI21 Labs剛剛開源了Jamba,世界上第一個生產級的Mamba大模型!
Jamba在多項基準測試中表現亮眼,與目前最強的幾個開源Transformer平起平坐。
特別是對比性能最好的、同為MoE架構的Mixtral 8x7B,也互有勝負。
具體來說它——
是基于全新SSM-Transformer混合架構的首個生產級Mamba模型
與Mixtral 8x7B相比,長文本處理吞吐量提高了3倍
實現了256K超長上下文窗口
是同等規模中,唯一一個能在單張GPU上處理140K上下文的模型
以Apache 2.0開源許可協議發布,開放權重
之前的Mamba因為各種限制,只做到了3B,還被人質疑能否接過Transformer的大旗,而同為線性RNN家族的RWKV、Griffin等也只擴展到了14B。
——Jamb
原文鏈接:Mamba超強進化體一舉顛覆Transformer!單張A100跑140K上下文
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...