AIGC動態歡迎閱讀
原標題:大模型最強架構TTT問世!斯坦福UCSD等5年磨一劍, 一夜Transformer
關鍵字:上下文,研究人員,模型,狀態,序列
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:編輯部
【新智元導讀】超越Transformer和Mamba的新架構,剛剛誕生了。斯坦福UCSD等機構研究者提出的TTT方法,直接替代了注意力機制,語言模型方法從此或將徹底改變。一覺醒來,超越Transformer和Mamba的新架構誕生了?
斯坦福、UCSD、UC伯克利和Meta的研究人員提出了一種全新架構,用機器學習模型取代RNN的隱藏狀態。
論文地址:https://arxiv.org/abs/2407.04620
這個模型通過對輸入token進行梯度下降來壓縮上下文,這種方法被稱為「測試時間訓練層(Test-Time-Training layers,TTT)」。
TTT層直接替代了注意力機制,解鎖了具有表現力記憶的線性復雜度架構,使我們能夠在上下文中訓練包含數百萬(未來可能是數十億)個token的LLM。
作者相信,這個研究了一年多的項目,將從根本上改變我們的語言模型方法。
而結果證明,TTT-Linear和TTT-MLP直接趕超或擊敗了最強的Transformer和Mamba!
作者之一的Xiaolong Wang驚喜地表示:不敢相信,我們真的做到了。
更令
原文鏈接:大模型最強架構TTT問世!斯坦福UCSD等5年磨一劍, 一夜Transformer
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...