AIGC動態歡迎閱讀
原標題:小技巧大功效,「僅閱讀兩次提示」讓循環語言模型超越Transformer++
關鍵字:模型,上下文,研究者,解碼器,因果
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:杜偉在當前 AI 領域,大語言模型采用的主流架構是 Transformer。不過,隨著 RWKV、Mamba 等架構的陸續問世,出現了一個很明顯的趨勢:在語言建模困惑度方面與 Transformer 較量的循環大語言模型正在快速進入人們的視線。
令人興奮的是,這些架構在推理期間使用了恒定量的內存。不過,受制于有限的內存,循環語言模型(LM)無法記憶并使用長上下文中的所有信息,這導致了上下文學習(in-context learning,ICL)質量的不佳。因此,獲得高效大語言模型的關鍵挑戰在于選擇存儲或者丟棄哪些信息。
在最近的論文《Just read twice: closing the recall gap for recurrent language models》中,來自斯坦福大學、布法羅大學的研究者通過簡單觀察發現,數據在推理期間涌入循環語言模型的排序極大地影響了在有限內存中預測存儲哪些信息的難度。
我們假設根據文檔 D(比如伽利略?伽利萊的詳細)來提問:伽利略是什么時候搬到的佛羅倫薩?這時,如果提示遵循了 [Q, D] 的排序,則模型只需要記住文檔
原文鏈接:小技巧大功效,「僅閱讀兩次提示」讓循環語言模型超越Transformer++
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...