
AIGC動態歡迎閱讀
原標題:Transformer挑戰者出現!斯坦福CMU聯合團隊,開源模型及代碼,公司已創辦
文章來源:量子位
內容字數:5041字
內容摘要:夢晨 發自 凹非寺量子位 | 公眾號 QbitAI現在ChatGPT等大模型一大痛點:處理長文本算力消耗巨大,背后原因是Transformer架構中注意力機制的二次復雜度。FlashAttention作者Tri Dao參與提出的新架構,成為有力挑戰者,引起大量關注:Mamba(曼巴,一種蛇),在語言任務上擊敗/匹配Transformer性能,具有線性復雜度和5倍推理吞吐量。具體來說,Mamba在語言、音頻、DNA序列模態上都實現SOTA。在最受關注的語言任務上,Mamba-3B超越同等規模的Transformer,與兩倍大的Transformer匹敵。并且相關代碼、預訓練模型checkpoint都已開源。兩位作者的解讀都獲得大量轉發。有網友發現,連在線預測平臺上的“Transformer在2027年還是SOTA嗎?”都在這一天出現明顯下降。有選擇處理信息+硬件感知算法。Mamba是一種狀態…
原文鏈接:點此閱讀原文:Transformer挑戰者出現!斯坦福CMU聯合團隊,開源模型及代碼,公司已創辦
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號