AIGC動態歡迎閱讀
內容摘要:
機器之心報道
編輯:杜偉、陳陳指令調優(Instruction tuning)是一種優化技術,通過對模型的輸入進行微調,以使其更好地適應特定任務。先前的研究表明,指令調優樣本效率是很高效的,只需要大約 1000 個指令-響應對或精心制作的提示和少量指令-響應示例即可。本文中,來自斯坦福大學的研究者更進一步探索了這樣一種想法,即指令遵循甚至可以隱式地從語言模型中產生,即通過并非明確設計的方法產生。本文發現了兩種執行隱式指令調優的適應形式,與顯式指令調優相比,它們似乎存在缺陷:(1)響應調優,僅對響應進行訓練;(2)單任務調優,僅對來自狹窄目標領域的數據進行訓練,如詩歌生成。論文標題:Instruction Following without Instruction Tuning
論文地址:https://arxiv.org/pdf/2409.14254
博客地址:https://nlp.stanford.edu/~johnhew/instruction-following.html
首先,該研究證明,響應調優(僅對響應進行訓練而不對其指令進行條件限制)足以產生指令遵循。特別是使用 LIM
原文鏈接:斯坦福新作:無指令調優的指令遵循
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...