<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        超越 Transformer 與 Mamba,Meta 聯合斯坦福等高校推出最強架構 TTT

        AIGC動態1年前 (2024)發布 AI前線
        285 0 0

        超越 Transformer 與 Mamba,Meta 聯合斯坦福等高校推出最強架構 TTT

        AIGC動態歡迎閱讀

        原標題:超越 Transformer 與 Mamba,Meta 聯合斯坦福等高校推出最強架構 TTT
        關鍵字:模型,長上,上下文,狀態,下文
        文章來源:AI前線
        內容字數:0字

        內容摘要:


        作者 | 趙明華
        近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人員提出了一種全新架構,用機器學習模型取代 RNN 的隱藏狀態。
        圖 1 所有序列建模層都可以表示為一個根據更新規則轉換的隱藏狀態
        這個模型通過對輸入 token 進行梯度下降來壓縮上下文,這種方法被稱為「測試時間訓練層(Test-Time-Training layers,TTT)」。該研究作者之一 Karan Dalal 表示,他相信這將根本性地改變語言模型方法。
        自注意力機制在處理長上下文時表現良好,但其復雜度是二次的。現有的 RNN 層具有線性復雜度,但其在長上下文中的表現受限于其隱藏狀態的表達能力。隨著上下文長度的增加,成本也會越來越高。
        作者提出了一種具有線性復雜度和表達能力強的隱藏狀態的新型序列建模層。關鍵思路是讓隱藏狀態本身成為一個機器學習模型,并將更新規則設為自監督學習的一步。
        圖 2,RNN 層與 TTT 層的關系
        論文中提出了兩種實例:TTT-Linear 和 TTT-MLP,它們的隱藏狀態分別是線性模型和兩層 MLP。團隊在 125M 到 1.3B 參數規模上評估了實例,并與強大的 Tran


        原文鏈接:超越 Transformer 與 Mamba,Meta 聯合斯坦福等高校推出最強架構 TTT

        聯系作者

        文章來源:AI前線
        作者微信:ai-front
        作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产黄色片在线免费观看| 中文字幕精品三区无码亚洲| 国产亚洲人成无码网在线观看| 亚洲日本va在线观看| 国产在线国偷精品免费看| 亚洲无砖砖区免费| 免费的涩涩视频在线播放| 亚洲中文字幕无码亚洲成A人片| 好猛好深好爽好硬免费视频| 亚洲美女免费视频| 国产精品亚洲片夜色在线| 性色av免费观看| 无人视频在线观看免费播放影院 | 亚洲国产精品线在线观看| 亚洲男人在线无码视频| 亚洲国产精品va在线播放| 色猫咪免费人成网站在线观看| 亚洲高清无码专区视频| 亚洲国产美女福利直播秀一区二区 | 亚洲一区AV无码少妇电影| 国产成人免费高清在线观看| 一级中文字幕乱码免费| 亚洲成人在线网站| 最近免费中文字幕视频高清在线看 | 国产99精品一区二区三区免费| 久久亚洲伊人中字综合精品| 国产日本一线在线观看免费| 亚洲色偷偷偷鲁综合| 免费无码国产在线观国内自拍中文字幕 | 亚洲情a成黄在线观看动漫尤物| 免费下载成人电影| 无人视频在线观看免费播放影院| 亚洲产国偷V产偷V自拍色戒 | 日本妇人成熟免费中文字幕| 边摸边吃奶边做爽免费视频99| 大陆一级毛片免费视频观看i| 一级做a免费视频观看网站| 亚洲综合综合在线| 日韩毛片免费无码无毒视频观看| 777亚洲精品乱码久久久久久 | a成人毛片免费观看|