大模型最強架構TTT問世!斯坦福UCSD等5年磨一劍, 一夜Transformer

AIGC動態(tài)歡迎閱讀
原標題:大模型最強架構TTT問世!斯坦福UCSD等5年磨一劍, 一夜Transformer
關鍵字:上下文,研究人員,模型,狀態(tài),序列
文章來源:新智元
內容字數(shù):0字
內容摘要:
新智元報道編輯:編輯部
【新智元導讀】超越Transformer和Mamba的新架構,剛剛誕生了。斯坦福UCSD等機構研究者提出的TTT方法,直接替代了注意力機制,語言模型方法從此或將徹底改變。一覺醒來,超越Transformer和Mamba的新架構誕生了?
斯坦福、UCSD、UC伯克利和Meta的研究人員提出了一種全新架構,用機器學習模型取代RNN的隱藏狀態(tài)。
論文地址:https://arxiv.org/abs/2407.04620
這個模型通過對輸入token進行梯度下降來壓縮上下文,這種方法被稱為「測試時間訓練層(Test-Time-Training layers,TTT)」。
TTT層直接替代了注意力機制,解鎖了具有表現(xiàn)力記憶的線性復雜度架構,使我們能夠在上下文中訓練包含數(shù)百萬(未來可能是數(shù)十億)個token的LLM。
作者相信,這個研究了一年多的項目,將從根本上改變我們的語言模型方法。
而結果證明,TTT-Linear和TTT-MLP直接趕超或擊敗了最強的Transformer和Mamba!
作者之一的Xiaolong Wang驚喜地表示:不敢相信,我們真的做到了。
更令
原文鏈接:大模型最強架構TTT問世!斯坦福UCSD等5年磨一劍, 一夜Transformer
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

粵公網(wǎng)安備 44011502001135號