大模型最強架構TTT問世！斯坦福UCSD等5年磨一劍，一夜Transformer

AIGC動態1年前 (2024)發布新智元

大模型最強架構TTT問世！斯坦福UCSD等5年磨一劍，一夜推翻Transformer

AIGC動態歡迎閱讀

原標題：大模型最強架構TTT問世！斯坦福UCSD等5年磨一劍，一夜Transformer
關鍵字：上下文,研究人員,模型,狀態,序列
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：編輯部
【新智元導讀】超越Transformer和Mamba的新架構，剛剛誕生了。斯坦福UCSD等機構研究者提出的TTT方法，直接替代了注意力機制，語言模型方法從此或將徹底改變。一覺醒來，超越Transformer和Mamba的新架構誕生了？
斯坦福、UCSD、UC伯克利和Meta的研究人員提出了一種全新架構，用機器學習模型取代RNN的隱藏狀態。
論文地址：https://arxiv.org/abs/2407.04620
這個模型通過對輸入token進行梯度下降來壓縮上下文，這種方法被稱為「測試時間訓練層（Test-Time-Training layers，TTT）」。
TTT層直接替代了注意力機制，解鎖了具有表現力記憶的線性復雜度架構，使我們能夠在上下文中訓練包含數百萬（未來可能是數十億）個token的LLM。
作者相信，這個研究了一年多的項目，將從根本上改變我們的語言模型方法。
而結果證明，TTT-Linear和TTT-MLP直接趕超或擊敗了最強的Transformer和Mamba！
作者之一的Xiaolong Wang驚喜地表示：不敢相信，我們真的做到了。
更令

原文鏈接：大模型最強架構TTT問世！斯坦福UCSD等5年磨一劍，一夜Transformer

聯系作者

文章來源：新智元
作者微信：AI_era
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

閱讀原文

# AIGC動態 # 上下文 # 序列 # 模型 # 狀態 # 研究人員

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

大模型最強架構TTT問世！斯坦福UCSD等5年磨一劍，一夜Transformer

AIGC動態歡迎閱讀

內容摘要：

聯系作者

18.98 萬！史上最便宜的寶馬 MINI，還是賣貴了

第一批正在被AIGC重置的行業有話說

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

大模型最強架構TTT問世！斯坦福UCSD等5年磨一劍， 一夜Transformer

AIGC動態歡迎閱讀

內容摘要：

聯系作者

18.98 萬！史上最便宜的寶馬 MINI，還是賣貴了

第一批正在被AIGC重置的行業有話說

相關文章

暫無評論

ChatGPT

玩虛擬模特？

大模型最強架構TTT問世！斯坦福UCSD等5年磨一劍，一夜Transformer