誰能撼動(dòng)Transformer統(tǒng)治地位?Mamba作者談LLM未來架構(gòu)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:誰能撼動(dòng)Transformer統(tǒng)治地位?Mamba作者談LLM未來架構(gòu)
關(guān)鍵字:模型,狀態(tài),注意力,架構(gòu),機(jī)制
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):16785字
內(nèi)容摘要:
機(jī)器之心編譯
機(jī)器之心編輯部自 2017 年被提出以來,Transformer 已成為 AI 大模型的主流架構(gòu),未來這種情況是一直持續(xù),還是會(huì)有新的研究出現(xiàn),我們不妨先聽聽身處 AI 圈的研究者是怎么想的。在大模型領(lǐng)域,一直穩(wěn)站 C 位的 Transformer 最近似乎有被超越的趨勢。
這個(gè)挑戰(zhàn)者就是一項(xiàng)名為「Mamba」的研究,其在語言、音頻和基因組學(xué)等多種模態(tài)中都達(dá)到了 SOTA 性能。在語言建模方面,無論是預(yù)訓(xùn)練還是下游評(píng)估,Mamba-3B 模型都優(yōu)于同等規(guī)模的 Transformer 模型,并能與兩倍于其規(guī)模的 Transformer 模型相媲美。論文一經(jīng)發(fā)表,引起了不小的轟動(dòng)。驚嘆之余,大家發(fā)現(xiàn)論文作者只有兩位,一位是卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系助理教授 Albert Gu,另一位是 Together.AI 首席科學(xué)家、普林斯頓大學(xué)計(jì)算機(jī)科學(xué)助理教授(即將上任)Tri Dao。
這項(xiàng)研究的一個(gè)重要?jiǎng)?chuàng)新是引入了一個(gè)名為「選擇性 SSM( selective state space model)」的架構(gòu),相比于 Transformer 中的自注意力機(jī)制的計(jì)算量會(huì)隨著上下文長度的增
原文鏈接:誰能撼動(dòng)Transformer統(tǒng)治地位?Mamba作者談LLM未來架構(gòu)
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)