北大林宙辰團(tuán)隊全新混合序列建模架構(gòu)MixCon:性能遠(yuǎn)超Mamba
AIGC動態(tài)歡迎閱讀
原標(biāo)題:北大林宙辰團(tuán)隊全新混合序列建模架構(gòu)MixCon:性能遠(yuǎn)超Mamba
關(guān)鍵字:序列,模型,注意力,令牌,吞吐量
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在自然語言處理、語音識別和時間序列分析等眾多領(lǐng)域中,序列建模是一項至關(guān)重要的任務(wù)。然而,現(xiàn)有的模型在捕捉長程依賴關(guān)系和高效建模序列方面仍面臨諸多挑戰(zhàn)。
因此,北京大學(xué)林宙辰、徐鑫提出了一種全新混合序列建模架構(gòu) ——MixCon,它為解決這些難題帶來了創(chuàng)新性的方案。經(jīng)實驗驗證,其性能遠(yuǎn)超 Mixtral、Mamba 和 Jamba。論文已在 European Conference on Artificial Intelligence (ECAI) 2024 上發(fā)表。論文標(biāo)題:MixCon: A Hybrid Architecture for Efficient and Adaptive Sequence Modeling
論文地址:https://zhouche
原文鏈接:北大林宙辰團(tuán)隊全新混合序列建模架構(gòu)MixCon:性能遠(yuǎn)超Mamba
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: