Transformer挑戰(zhàn)者出現(xiàn)!斯坦福CMU聯(lián)合團(tuán)隊(duì),開源模型及代碼,公司已創(chuàng)辦
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Transformer挑戰(zhàn)者出現(xiàn)!斯坦福CMU聯(lián)合團(tuán)隊(duì),開源模型及代碼,公司已創(chuàng)辦
關(guān)鍵字:解讀,模型,架構(gòu),序列,狀態(tài)
文章來源:量子位
內(nèi)容字?jǐn)?shù):5041字
內(nèi)容摘要:夢晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI現(xiàn)在ChatGPT等大模型一大痛點(diǎn):處理長文本算力消耗巨大,背后原因是Transformer架構(gòu)中注意力機(jī)制的二次復(fù)雜度。FlashAttention作者Tri Dao參與提出的新架構(gòu),成為有力挑戰(zhàn)者,引起大量關(guān)注:Mamba(曼巴,一種蛇),在語言任務(wù)上擊敗/匹配Transformer性能,具有線性復(fù)雜度和5倍推理吞吐量。具體來說,Mamba在語言、音頻、DNA序列模態(tài)上都實(shí)現(xiàn)SOTA。在最受關(guān)注的語言任務(wù)上,Mamba-3B超越同等規(guī)模的Transformer,與兩倍大的Transformer匹敵。并且相關(guān)代碼、預(yù)訓(xùn)練模型checkpoint都已開源。兩位作者的解讀都獲得大量轉(zhuǎn)發(fā)。有網(wǎng)友發(fā)現(xiàn),連在線預(yù)測平臺(tái)上的“Transformer在2027年還是SOTA嗎?”都在這一天出現(xiàn)明顯下降。有選擇處理信息+硬件感知算法。Mamba是一種狀態(tài)…
原文鏈接:點(diǎn)此閱讀原文:Transformer挑戰(zhàn)者出現(xiàn)!斯坦福CMU聯(lián)合團(tuán)隊(duì),開源模型及代碼,公司已創(chuàng)辦
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破