AIGC動態歡迎閱讀
原標題:DenseMamba:大模型的DenseNet時刻,Mamba和RetNet精度顯著提升
關鍵字:華為,模型,狀態,報告,信息
文章來源:機器之心
內容字數:8580字
內容摘要:
機器之心專欄
機器之心編輯部近期,來自華為諾亞方舟實驗室的研究者提出了 DenseSSM,用于增強 SSM 中各層間隱藏信息的流動。通過將淺層隱藏狀態有選擇地整合到深層中,DenseSSM 保留了對最終輸出至關重要的精細信息。DenseSSM 在保持訓練并行性和推理效率的同時,通過密集連接實現了性能提升。該方法可廣泛應用于各種 SSM 類型,如 Mamba 和 RetNet。隨著 ChatGPT 的突破性進展,大型語言模型(LLMs)迎來了一個嶄新的里程碑。這些模型在語言理解、對話交互和邏輯推理方面展現了卓越的性能。過去一年,人們目睹了 LLaMA、ChatGLM 等模型的誕生,它們基于 Transformer 架構,采用多頭自注意力(MHSA)機制來捕捉詞匯間的復雜關系,盡管 MHSA 模塊在模型中扮演著核心角色,但其在推理過程中對計算和內存資源的需求卻極為龐大。具體來說,對于長度為 N 的輸入句子,自注意力的計算復雜度高達 O (N^2),而內存占用則達到了 O (N^2D),其中 D 是模型的維度。
為了應對這一挑戰,最新的研究致力于簡化 Transformer 架構,以降低其在
原文鏈接:DenseMamba:大模型的DenseNet時刻,Mamba和RetNet精度顯著提升
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...