AIGC動態歡迎閱讀
原標題:Meta:大語言模型可以通過自我批判取得大幅提升!
關鍵字:模型,執行者,數據,長度,提示
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | 謝年年論文的審稿模式想必大家都不會陌生,一篇論文除了分配多個評審,最后還將由PC綜合評估各位審稿人的reviews撰寫meta-review。
最近,來自Meta的研究團隊將這一模式引進到大模型的對齊訓練中。模型同時扮演 執行者(actor)、評判者(judge)和元評判者(meta-judge) 三種角色。執行者生成回復,評判者評估生成回復的質量并打分,元評判者則檢查評判者的質量,為評判者提供必要的訓練反饋。
通過這種方式獲得大量回復偏好對,無需人工標注數據,進一步訓練對齊模型,顯著提高了模型的判斷和遵循指令的能力。
論文標題:META-REWARDING LANGUAGE MODELS:
Self-Improving Alignment with LLM-as-a-Meta-Judge
論文鏈接:https://arxiv.org/pdf/2407.19594
方法本文假設沒有任何額外的人工監督數據,僅有一個初始的種子LLM。通過迭代自我對弈,模型同時扮演執行者(actor)、評判者(judge)和元評判者(meta-judge)三種角色。執行者生成回復
原文鏈接:Meta:大語言模型可以通過自我批判取得大幅提升!
聯系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...