小技巧大功效,「僅閱讀兩次提示」讓循環(huán)語言模型超越Transformer++

AIGC動態(tài)歡迎閱讀
原標(biāo)題:小技巧大功效,「僅閱讀兩次提示」讓循環(huán)語言模型超越Transformer++
關(guān)鍵字:模型,上下文,研究者,解碼器,因果
文章來源:機器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機器之心報道
編輯:杜偉在當(dāng)前 AI 領(lǐng)域,大語言模型采用的主流架構(gòu)是 Transformer。不過,隨著 RWKV、Mamba 等架構(gòu)的陸續(xù)問世,出現(xiàn)了一個很明顯的趨勢:在語言建模困惑度方面與 Transformer 較量的循環(huán)大語言模型正在快速進入人們的視線。
令人興奮的是,這些架構(gòu)在推理期間使用了恒定量的內(nèi)存。不過,受制于有限的內(nèi)存,循環(huán)語言模型(LM)無法記憶并使用長上下文中的所有信息,這導(dǎo)致了上下文學(xué)習(xí)(in-context learning,ICL)質(zhì)量的不佳。因此,獲得高效大語言模型的關(guān)鍵挑戰(zhàn)在于選擇存儲或者丟棄哪些信息。
在最近的論文《Just read twice: closing the recall gap for recurrent language models》中,來自斯坦福大學(xué)、布法羅大學(xué)的研究者通過簡單觀察發(fā)現(xiàn),數(shù)據(jù)在推理期間涌入循環(huán)語言模型的排序極大地影響了在有限內(nèi)存中預(yù)測存儲哪些信息的難度。
我們假設(shè)根據(jù)文檔 D(比如伽利略?伽利萊的詳細(xì))來提問:伽利略是什么時候搬到的佛羅倫薩?這時,如果提示遵循了 [Q, D] 的排序,則模型只需要記住文檔
原文鏈接:小技巧大功效,「僅閱讀兩次提示」讓循環(huán)語言模型超越Transformer++
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號