MoE與Mamba強(qiáng)強(qiáng)聯(lián)合,將狀態(tài)空間模型擴(kuò)展到數(shù)百億參數(shù)
AIGC動態(tài)歡迎閱讀
原標(biāo)題:MoE與Mamba強(qiáng)強(qiáng)聯(lián)合,將狀態(tài)空間模型擴(kuò)展到數(shù)百億參數(shù)
關(guān)鍵字:模型,報告,專家,架構(gòu),數(shù)量
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7052字
內(nèi)容摘要:
機(jī)器之心報道
編輯:Panda性能與 Mamba 一樣,但所需訓(xùn)練步驟數(shù)卻少 2.2 倍。狀態(tài)空間模型(SSM)是近來一種備受關(guān)注的 Transformer 替代技術(shù),其優(yōu)勢是能在長上下文任務(wù)上實現(xiàn)線性時間的推理、并行化訓(xùn)練和強(qiáng)大的性能。而基于選擇性 SSM 和硬件感知型設(shè)計的 Mamba 更是表現(xiàn)出色,成為了基于注意力的 Transformer 架構(gòu)的一大有力替代架構(gòu)。
近期也有一些研究者在探索將 SSM 和 Mamba 與其它方法組合起來創(chuàng)造更強(qiáng)大的架構(gòu),比如機(jī)器之心曾報告過《Mamba 可以替代 Transformer,但它們也能組合起來使用》。
近日,波蘭一個研究團(tuán)隊發(fā)現(xiàn),如果將 SSM 與混合專家系統(tǒng)(MoE/Mixture of Experts)組合起來,可望讓 SSM 實現(xiàn)大規(guī)模擴(kuò)展。MoE 是目前常用于擴(kuò)展 Transformer 的技術(shù),比如近期的 Mixtral 模型就使用了這一技術(shù),參閱機(jī)器之心文章。
這個波蘭研究團(tuán)隊給出的研究成果是 MoE-Mamba,即將 Mamba 和混合專家層組合起來的模型。論文地址:https://arxiv.org/pdf/2401.
原文鏈接:MoE與Mamba強(qiáng)強(qiáng)聯(lián)合,將狀態(tài)空間模型擴(kuò)展到數(shù)百億參數(shù)
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺