Attention isn’t all you need!Mamba混合大模型開源:三倍Transformer吞吐量

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Attention isn’t all you need!Mamba混合大模型開源:三倍Transformer吞吐量
關(guān)鍵字:模型,架構(gòu),吞吐量,上下文,長(zhǎng)上
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3684字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:小舟Mamba 時(shí)代來了?
自 2017 年開創(chuàng)性研究論文《Attention is All You Need》問世以來,transformer 架構(gòu)就一直主導(dǎo)著生成式人工智能領(lǐng)域。
然而,transformer 架構(gòu)實(shí)際上有兩個(gè)顯著缺點(diǎn):
內(nèi)存占用大:Transformer 的內(nèi)存占用量隨上下文長(zhǎng)度而變化。這使得在沒有大量硬件資源的情況下運(yùn)行長(zhǎng)上下文窗口或大量并行批處理變得具有挑戰(zhàn)性,從而限制了廣泛的實(shí)驗(yàn)和部署。
隨著上下文長(zhǎng)度的增加,推理速度會(huì)變慢:Transformer 的注意力機(jī)制隨序列長(zhǎng)度呈二次方擴(kuò)展,并且會(huì)降低吞吐量,因?yàn)槊總€(gè) token 都依賴于它之前的整個(gè)序列,從而將長(zhǎng)上下文用例置于高效生產(chǎn)的范圍之外。
但 transformer 并不是生成式人工智能唯一的前進(jìn)方向。最近,AI21 Labs 推出并開源了一種名為「Jamba」的新方法,在多個(gè)基準(zhǔn)上超越了 transformer。Hugging Face 地址:https://huggingface.co/ai21labs/Jamba-v0.1Mamba 的 SSM 架構(gòu)可以很好地解決 transfo
原文鏈接:Attention isn’t all you need!Mamba混合大模型開源:三倍Transformer吞吐量
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)