Transformer挑戰(zhàn)者出現(xiàn)！斯坦福CMU聯(lián)合團(tuán)隊(duì)，開源模型及代碼，公司已創(chuàng)辦

AIGC動(dòng)態(tài)1年前 (2023)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：Transformer挑戰(zhàn)者出現(xiàn)！斯坦福CMU聯(lián)合團(tuán)隊(duì)，開源模型及代碼，公司已創(chuàng)辦

文章來源：量子位

內(nèi)容字?jǐn)?shù)：5041字

內(nèi)容摘要：夢晨發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI現(xiàn)在ChatGPT等大模型一大痛點(diǎn)：處理長文本算力消耗巨大，背后原因是Transformer架構(gòu)中注意力機(jī)制的二次復(fù)雜度。FlashAttention作者Tri Dao參與提出的新架構(gòu)，成為有力挑戰(zhàn)者，引起大量關(guān)注：Mamba（曼巴，一種蛇），在語言任務(wù)上擊敗/匹配Transformer性能，具有線性復(fù)雜度和5倍推理吞吐量。具體來說，Mamba在語言、音頻、DNA序列模態(tài)上都實(shí)現(xiàn)SOTA。在最受關(guān)注的語言任務(wù)上，Mamba-3B超越同等規(guī)模的Transformer，與兩倍大的Transformer匹敵。并且相關(guān)代碼、預(yù)訓(xùn)練模型checkpoint都已開源。兩位作者的解讀都獲得大量轉(zhuǎn)發(fā)。有網(wǎng)友發(fā)現(xiàn)，連在線預(yù)測平臺(tái)上的“Transformer在2027年還是SOTA嗎？”都在這一天出現(xiàn)明顯下降。有選擇處理信息+硬件感知算法。Mamba是一種狀態(tài)…

原文鏈接：點(diǎn)此閱讀原文：Transformer挑戰(zhàn)者出現(xiàn)！斯坦福CMU聯(lián)合團(tuán)隊(duì)，開源模型及代碼，公司已創(chuàng)辦