華為諾亞頻域LLM「帝江」:僅需1/50訓(xùn)練成本,7B模型媲美LLaMA,推理加速5倍
AIGC動態(tài)歡迎閱讀
原標題:華為諾亞頻域LLM「帝江」:僅需1/50訓(xùn)練成本,7B模型媲美LLaMA,推理加速5倍
關(guān)鍵字:模型,侵權(quán),論文,注意力,復(fù)雜度
文章來源:算法邦
內(nèi)容字數(shù):6495字
內(nèi)容摘要:
4月18-19日,由智猩猩與智東西共同主辦的2024中國生成式AI大會將在北京JW萬豪酒店舉行。大會完整議程出爐,55位嘉賓出席!免費票申請通道即將關(guān)閉,大會通票(499元標準票)余票有限。掃碼搶票~文章轉(zhuǎn)載自公眾號:機器之心,本文只做學(xué)術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。
“又西三百五十里曰天山,多金玉,有青雄黃,英水出焉,而西南流注于湯谷。有神鳥,其狀如黃囊,赤如丹火,六足四翼,渾敦無面目,是識歌舞,實惟帝江也。”——《山海經(jīng)》
基于 Transformer 架構(gòu)的大語言模型在 NLP 領(lǐng)域取得了令人驚艷的效果,然而,Transformer 中自注意力帶來的二次復(fù)雜度使得大模型的推理成本和內(nèi)存占用十分巨大,特別是在長序列的場景中。此前,研究者們提出了線性 Transformer、Mamba、RetNet 等。這些方案可以大幅降低 Transformer 計算成本,并且取得媲美原有模型的精度,但是由于架構(gòu)更換,模型重訓(xùn)練帶來的巨大成本令人望而卻步。
為了解決這一問題,最近的一篇論文提出了一種基于頻域的大語言模型架構(gòu) —帝江(源于山海經(jīng)的一種神話生物,以跑得快而聞名),同時解決了現(xiàn)有大模
原文鏈接:華為諾亞頻域LLM「帝江」:僅需1/50訓(xùn)練成本,7B模型媲美LLaMA,推理加速5倍
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接AI新青年,講解研究成果,分享系統(tǒng)思考。