AIGC動態歡迎閱讀
原標題:北大林宙辰團隊全新混合序列建模架構MixCon:性能遠超Mamba
關鍵字:序列,模型,注意力,令牌,吞吐量
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在自然語言處理、語音識別和時間序列分析等眾多領域中,序列建模是一項至關重要的任務。然而,現有的模型在捕捉長程依賴關系和高效建模序列方面仍面臨諸多挑戰。
因此,北京大學林宙辰、徐鑫提出了一種全新混合序列建模架構 ——MixCon,它為解決這些難題帶來了創新性的方案。經實驗驗證,其性能遠超 Mixtral、Mamba 和 Jamba。論文已在 European Conference on Artificial Intelligence (ECAI) 2024 上發表。論文標題:MixCon: A Hybrid Architecture for Efficient and Adaptive Sequence Modeling
論文地址:https://zhouche
原文鏈接:北大林宙辰團隊全新混合序列建模架構MixCon:性能遠超Mamba
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...