Attention isn’t all you need！Mamba混合大模型開源：三倍Transformer吞吐量

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：Attention isn’t all you need！Mamba混合大模型開源：三倍Transformer吞吐量
關(guān)鍵字：模型,架構(gòu),吞吐量,上下文,長(zhǎng)上
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：3684字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：小舟Mamba 時(shí)代來了？
自 2017 年開創(chuàng)性研究論文《Attention is All You Need》問世以來，transformer 架構(gòu)就一直主導(dǎo)著生成式人工智能領(lǐng)域。
然而，transformer 架構(gòu)實(shí)際上有兩個(gè)顯著缺點(diǎn)：
內(nèi)存占用大：Transformer 的內(nèi)存占用量隨上下文長(zhǎng)度而變化。這使得在沒有大量硬件資源的情況下運(yùn)行長(zhǎng)上下文窗口或大量并行批處理變得具有挑戰(zhàn)性，從而限制了廣泛的實(shí)驗(yàn)和部署。
隨著上下文長(zhǎng)度的增加，推理速度會(huì)變慢：Transformer 的注意力機(jī)制隨序列長(zhǎng)度呈二次方擴(kuò)展，并且會(huì)降低吞吐量，因?yàn)槊總€(gè) token 都依賴于它之前的整個(gè)序列，從而將長(zhǎng)上下文用例置于高效生產(chǎn)的范圍之外。
但 transformer 并不是生成式人工智能唯一的前進(jìn)方向。最近，AI21 Labs 推出并開源了一種名為「Jamba」的新方法，在多個(gè)基準(zhǔn)上超越了 transformer。Hugging Face 地址：https://huggingface.co/ai21labs/Jamba-v0.1Mamba 的 SSM 架構(gòu)可以很好地解決 transfo

原文鏈接：Attention isn’t all you need！Mamba混合大模型開源：三倍Transformer吞吐量