AIGC動態歡迎閱讀
原標題:Attention isn’t all you need!Mamba混合大模型開源:三倍Transformer吞吐量
關鍵字:模型,架構,吞吐量,上下文,長上
文章來源:機器之心
內容字數:3684字
內容摘要:
機器之心報道
編輯:小舟Mamba 時代來了?
自 2017 年開創性研究論文《Attention is All You Need》問世以來,transformer 架構就一直主導著生成式人工智能領域。
然而,transformer 架構實際上有兩個顯著缺點:
內存占用大:Transformer 的內存占用量隨上下文長度而變化。這使得在沒有大量硬件資源的情況下運行長上下文窗口或大量并行批處理變得具有挑戰性,從而限制了廣泛的實驗和部署。
隨著上下文長度的增加,推理速度會變慢:Transformer 的注意力機制隨序列長度呈二次方擴展,并且會降低吞吐量,因為每個 token 都依賴于它之前的整個序列,從而將長上下文用例置于高效生產的范圍之外。
但 transformer 并不是生成式人工智能唯一的前進方向。最近,AI21 Labs 推出并開源了一種名為「Jamba」的新方法,在多個基準上超越了 transformer。Hugging Face 地址:https://huggingface.co/ai21labs/Jamba-v0.1Mamba 的 SSM 架構可以很好地解決 transfo
原文鏈接:Attention isn’t all you need!Mamba混合大模型開源:三倍Transformer吞吐量
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...