AIGC動態歡迎閱讀
原標題:Mamba架構第一次做大!混合Transformer,打敗Transformer
關鍵字:騰訊,吞吐量,模型,高效,上下文
文章來源:量子位
內容字數:3955字
內容摘要:
豐色 發自 凹非寺量子位 | 公眾號 QbitAI精彩精彩,第一個把爆火Mamba架構真正擴展到足夠大的工作來了。
520億參數,還是Mamba+Transformer混合架構。
它的名字叫Jamba。
取兩種架構之長,模型質量和效率兼得,要吞吐量有吞吐量,要低內存有低內存。
初步跑分顯示:
Jamba性能總體接近Mixtral 8x-7B,處理128k長上下文時吞吐量卻是其3倍。
一共支持256k上下文,而單張A100 GPU即可處理140k,直接拿下同等規模模型之最,高效又經濟。
這項成果,來自AI公司AI21labs。
Mamba原作者看了之后都激動轉發:
絕對的“大新聞”。
Mamba、Transformer,合體由CMU和普林斯頓大學提出的Mamba,解決了Transformer的局限性(隨著推理上下文越長,模型內存占用量越大,同時推理速度變慢,由此導致算力消耗巨大)。
但它也有自己的缺點——
在不關注整個上下文的情況下,Mamba的輸出質量很差,尤其是在召回相關的任務上。
本著“既要也要”的原則,Jamba站出來提供兩全其美之作。
Jamba由Transformer、
原文鏈接:Mamba架構第一次做大!混合Transformer,打敗Transformer
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...