新架構(gòu)掀翻Transformer！無限上下文處理，2萬億token碾壓Llama 2

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布新智元

革命新架構(gòu)掀翻Transformer！無限上下文處理，2萬億token碾壓Llama 2

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：新架構(gòu)掀翻Transformer！無限上下文處理，2萬億token碾壓Llama 2
關(guān)鍵字：架構(gòu),上下文,模型,數(shù)據(jù),任務(wù)
文章來源：新智元
內(nèi)容字?jǐn)?shù)：5525字

內(nèi)容摘要：

新智元報(bào)道編輯：桃子好困
【新智元導(dǎo)讀】Transformer王座即將被取而代之！Meta、USC、CMU和UCSD聯(lián)合提出了性新架構(gòu)Megalodon，能夠處理無限上下文，在2萬億token訓(xùn)練任務(wù)中，性能超越Llama2-7B實(shí)現(xiàn)了非凡的效率。繼Mamba之后，又一敢于挑戰(zhàn)Transformer的架構(gòu)誕生了！
來自Meta、南加州大學(xué)（USC）、CMU和UCSD的研究人員提出了全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)——Megalodon（巨齒鯊）。
這是專為有效處理「無限上下文」長度的LLM預(yù)訓(xùn)練，以及推理而設(shè)計(jì)的架構(gòu)。
論文地址：https://arxiv.org/abs/2404.08801
我們都知道，Transformer架構(gòu)個(gè)在處理長上下文時(shí)，會(huì)受到二次復(fù)雜度，以及長度外推能力弱的限制。
盡管已有次二次方解決方案（諸如線性注意力，狀態(tài)空間模型），但它們在預(yù)訓(xùn)練效率，甚至下游任務(wù)的準(zhǔn)確率上，通常還不及Transformer。
Megalodon的出現(xiàn)，就是為了解決無限處理上下文的難題。
同時(shí)，它可以同時(shí)實(shí)現(xiàn)高效訓(xùn)練（減少通信和計(jì)算量），以及高效推理（保持恒定的KV緩存）。
值得一提的是

原文鏈接：新架構(gòu)掀翻Transformer！無限上下文處理，2萬億token碾壓Llama 2

聯(lián)系作者

文章來源：新智元
作者微信：AI_era
作者簡介：智能+中國主平臺(tái)，致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國新智能時(shí)代。

閱讀原文