Meta:大語言模型可以通過自我批判取得大幅提升!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Meta:大語言模型可以通過自我批判取得大幅提升!
關(guān)鍵字:模型,執(zhí)行者,數(shù)據(jù),長(zhǎng)度,提示
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 謝年年論文的審稿模式想必大家都不會(huì)陌生,一篇論文除了分配多個(gè)評(píng)審,最后還將由PC綜合評(píng)估各位審稿人的reviews撰寫meta-review。
最近,來自Meta的研究團(tuán)隊(duì)將這一模式引進(jìn)到大模型的對(duì)齊訓(xùn)練中。模型同時(shí)扮演 執(zhí)行者(actor)、評(píng)判者(judge)和元評(píng)判者(meta-judge) 三種角色。執(zhí)行者生成回復(fù),評(píng)判者評(píng)估生成回復(fù)的質(zhì)量并打分,元評(píng)判者則檢查評(píng)判者的質(zhì)量,為評(píng)判者提供必要的訓(xùn)練反饋。
通過這種方式獲得大量回復(fù)偏好對(duì),無需人工標(biāo)注數(shù)據(jù),進(jìn)一步訓(xùn)練對(duì)齊模型,顯著提高了模型的判斷和遵循指令的能力。
論文標(biāo)題:META-REWARDING LANGUAGE MODELS:
Self-Improving Alignment with LLM-as-a-Meta-Judge
論文鏈接:https://arxiv.org/pdf/2407.19594
方法本文假設(shè)沒有任何額外的人工監(jiān)督數(shù)據(jù),僅有一個(gè)初始的種子LLM。通過迭代自我對(duì)弈,模型同時(shí)扮演執(zhí)行者(actor)、評(píng)判者(judge)和元評(píng)判者(meta-judge)三種角色。執(zhí)行者生成回復(fù)
原文鏈接:Meta:大語言模型可以通過自我批判取得大幅提升!
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡(jiǎn)介: