斯坦福新作:無指令調優(yōu)的指令遵循
AIGC動態(tài)歡迎閱讀
原標題:斯坦福新作:無指令調優(yōu)的指令遵循
關鍵字:指令,模型,研究者,行為,示例
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:杜偉、陳陳指令調優(yōu)(Instruction tuning)是一種優(yōu)化技術,通過對模型的輸入進行微調,以使其更好地適應特定任務。先前的研究表明,指令調優(yōu)樣本效率是很高效的,只需要大約 1000 個指令-響應對或精心制作的提示和少量指令-響應示例即可。本文中,來自斯坦福大學的研究者更進一步探索了這樣一種想法,即指令遵循甚至可以隱式地從語言模型中產生,即通過并非明確設計的方法產生。本文發(fā)現了兩種執(zhí)行隱式指令調優(yōu)的適應形式,與顯式指令調優(yōu)相比,它們似乎存在缺陷:(1)響應調優(yōu),僅對響應進行訓練;(2)單任務調優(yōu),僅對來自狹窄目標領域的數據進行訓練,如詩歌生成。論文標題:Instruction Following without Instruction Tuning
論文地址:https://arxiv.org/pdf/2409.14254
博客地址:https://nlp.stanford.edu/~johnhew/instruction-following.html
首先,該研究證明,響應調優(yōu)(僅對響應進行訓練而不對其指令進行條件限制)足以產生指令遵循。特別是使用 LIM
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...