AIGC動態歡迎閱讀
原標題:MoE與Mamba強強聯合,將狀態空間模型擴展到數百億參數
關鍵字:模型,報告,專家,架構,數量
文章來源:機器之心
內容字數:7052字
內容摘要:
機器之心報道
編輯:Panda性能與 Mamba 一樣,但所需訓練步驟數卻少 2.2 倍。狀態空間模型(SSM)是近來一種備受關注的 Transformer 替代技術,其優勢是能在長上下文任務上實現線性時間的推理、并行化訓練和強大的性能。而基于選擇性 SSM 和硬件感知型設計的 Mamba 更是表現出色,成為了基于注意力的 Transformer 架構的一大有力替代架構。
近期也有一些研究者在探索將 SSM 和 Mamba 與其它方法組合起來創造更強大的架構,比如機器之心曾報告過《Mamba 可以替代 Transformer,但它們也能組合起來使用》。
近日,波蘭一個研究團隊發現,如果將 SSM 與混合專家系統(MoE/Mixture of Experts)組合起來,可望讓 SSM 實現大規模擴展。MoE 是目前常用于擴展 Transformer 的技術,比如近期的 Mixtral 模型就使用了這一技術,參閱機器之心文章。
這個波蘭研究團隊給出的研究成果是 MoE-Mamba,即將 Mamba 和混合專家層組合起來的模型。論文地址:https://arxiv.org/pdf/2401.
原文鏈接:MoE與Mamba強強聯合,將狀態空間模型擴展到數百億參數
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...