DenseMamba:大模型的DenseNet時(shí)刻,Mamba和RetNet精度顯著提升
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:DenseMamba:大模型的DenseNet時(shí)刻,Mamba和RetNet精度顯著提升
關(guān)鍵字:華為,模型,狀態(tài),報(bào)告,信息
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8580字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部近期,來(lái)自華為諾亞方舟實(shí)驗(yàn)室的研究者提出了 DenseSSM,用于增強(qiáng) SSM 中各層間隱藏信息的流動(dòng)。通過(guò)將淺層隱藏狀態(tài)有選擇地整合到深層中,DenseSSM 保留了對(duì)最終輸出至關(guān)重要的精細(xì)信息。DenseSSM 在保持訓(xùn)練并行性和推理效率的同時(shí),通過(guò)密集連接實(shí)現(xiàn)了性能提升。該方法可廣泛應(yīng)用于各種 SSM 類型,如 Mamba 和 RetNet。隨著 ChatGPT 的突破性進(jìn)展,大型語(yǔ)言模型(LLMs)迎來(lái)了一個(gè)嶄新的里程碑。這些模型在語(yǔ)言理解、對(duì)話交互和邏輯推理方面展現(xiàn)了卓越的性能。過(guò)去一年,人們目睹了 LLaMA、ChatGLM 等模型的誕生,它們基于 Transformer 架構(gòu),采用多頭自注意力(MHSA)機(jī)制來(lái)捕捉詞匯間的復(fù)雜關(guān)系,盡管 MHSA 模塊在模型中扮演著核心角色,但其在推理過(guò)程中對(duì)計(jì)算和內(nèi)存資源的需求卻極為龐大。具體來(lái)說(shuō),對(duì)于長(zhǎng)度為 N 的輸入句子,自注意力的計(jì)算復(fù)雜度高達(dá) O (N^2),而內(nèi)存占用則達(dá)到了 O (N^2D),其中 D 是模型的維度。
為了應(yīng)對(duì)這一挑戰(zhàn),最新的研究致力于簡(jiǎn)化 Transformer 架構(gòu),以降低其在
原文鏈接:DenseMamba:大模型的DenseNet時(shí)刻,Mamba和RetNet精度顯著提升
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)