小技巧大功效,「僅閱讀兩次提示」讓循環(huán)語言模型超越Transformer++
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:小技巧大功效,「僅閱讀兩次提示」讓循環(huán)語言模型超越Transformer++
關(guān)鍵字:模型,上下文,研究者,解碼器,因果
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:杜偉在當(dāng)前 AI 領(lǐng)域,大語言模型采用的主流架構(gòu)是 Transformer。不過,隨著 RWKV、Mamba 等架構(gòu)的陸續(xù)問世,出現(xiàn)了一個(gè)很明顯的趨勢(shì):在語言建模困惑度方面與 Transformer 較量的循環(huán)大語言模型正在快速進(jìn)入人們的視線。
令人興奮的是,這些架構(gòu)在推理期間使用了恒定量的內(nèi)存。不過,受制于有限的內(nèi)存,循環(huán)語言模型(LM)無法記憶并使用長上下文中的所有信息,這導(dǎo)致了上下文學(xué)習(xí)(in-context learning,ICL)質(zhì)量的不佳。因此,獲得高效大語言模型的關(guān)鍵挑戰(zhàn)在于選擇存儲(chǔ)或者丟棄哪些信息。
在最近的論文《Just read twice: closing the recall gap for recurrent language models》中,來自斯坦福大學(xué)、布法羅大學(xué)的研究者通過簡(jiǎn)單觀察發(fā)現(xiàn),數(shù)據(jù)在推理期間涌入循環(huán)語言模型的排序極大地影響了在有限內(nèi)存中預(yù)測(cè)存儲(chǔ)哪些信息的難度。
我們假設(shè)根據(jù)文檔 D(比如伽利略?伽利萊的詳細(xì))來提問:伽利略是什么時(shí)候搬到的佛羅倫薩?這時(shí),如果提示遵循了 [Q, D] 的排序,則模型只需要記住文檔
原文鏈接:小技巧大功效,「僅閱讀兩次提示」讓循環(huán)語言模型超越Transformer++
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: