華為諾亞頻域LLM「帝江」：僅需1/50訓(xùn)練成本，7B模型媲美LLaMA，推理加速5倍

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布算法邦

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：華為諾亞頻域LLM「帝江」：僅需1/50訓(xùn)練成本，7B模型媲美LLaMA，推理加速5倍
關(guān)鍵字：模型,侵權(quán),論文,注意力,復(fù)雜度
文章來源：算法邦
內(nèi)容字?jǐn)?shù)：6495字

內(nèi)容摘要：

4月18-19日，由智猩猩與智東西共同主辦的2024中國生成式AI大會(huì)將在北京JW萬豪酒店舉行。大會(huì)完整議程出爐，55位嘉賓出席！免費(fèi)票申請(qǐng)通道即將關(guān)閉，大會(huì)通票（499元標(biāo)準(zhǔn)票）余票有限。掃碼搶票～文章轉(zhuǎn)載自公眾號(hào)：機(jī)器之心，本文只做學(xué)術(shù)/技術(shù)分享，如有侵權(quán)，聯(lián)系刪文。
“又西三百五十里曰天山，多金玉，有青雄黃，英水出焉，而西南流注于湯谷。有神鳥，其狀如黃囊，赤如丹火，六足四翼，渾敦?zé)o面目，是識(shí)歌舞，實(shí)惟帝江也。”——《山海經(jīng)》
基于 Transformer 架構(gòu)的大語言模型在 NLP 領(lǐng)域取得了令人驚艷的效果，然而，Transformer 中自注意力帶來的二次復(fù)雜度使得大模型的推理成本和內(nèi)存占用十分巨大，特別是在長序列的場(chǎng)景中。此前，研究者們提出了線性 Transformer、Mamba、RetNet 等。這些方案可以大幅降低 Transformer 計(jì)算成本，并且取得媲美原有模型的精度，但是由于架構(gòu)更換，模型重訓(xùn)練帶來的巨大成本令人望而卻步。
為了解決這一問題，最近的一篇論文提出了一種基于頻域的大語言模型架構(gòu) —帝江（源于山海經(jīng)的一種神話生物，以跑得快而聞名），同時(shí)解決了現(xiàn)有大模

原文鏈接：華為諾亞頻域LLM「帝江」：僅需1/50訓(xùn)練成本，7B模型媲美LLaMA，推理加速5倍