OpenAI“最后一篇”超級對齊論文發布：大小模型相互博弈，輸出可讀性up

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：OpenAI“最后一篇”超級對齊論文發布：大小模型相互博弈，輸出可讀性up
關鍵字：準確率,模型,人類,團隊,解法
文章來源：量子位
內容字數：0字

內容摘要：

克雷西發自凹非寺量子位 | 公眾號 QbitAI讓大小模型相互博弈，就能實現生成內容可讀性的提升！
這是來自OpenAI的正經研究，目標就是在保證準確率的同時，讓模型輸出更容易被人理解。
用這種方法訓練之后，人類對模型輸出的判斷準確率明顯增長，速度也變得更快了。
這項研究出自OpenAI已解散的“超級對齊”團隊，模仿了多倫多大學學者與2021年提出的“證明者-驗證者”（Prover-Verifier）博弈。
在訓練過程中，OpenAI讓大模型擔任“證明者”，小模型作為“驗證者”，讓這兩種身份展開一場相互較量。
最終，大模型輸出的結果不僅更易理解，自身的準確率也沒有明顯損失，小模型的判斷水平也提高了。
甚至論文作者之一、OpenAI研究員Yining Chen表示，這種方法“有可能使未來的模型比人類更聰明”。
值得一提的是，超級對齊團隊原負責人、RLHF作者Jan Leike也參與了這項研究，他離職時曾炮轟OpenAI不重視安全。
不過，Jan Leike介紹這篇論文的推文最后，是給現在所在的Anthropic（Claude廠家）打廣告招兵買馬。
論文的另一名作者、OpenAI研究人

原文鏈接：OpenAI“最后一篇”超級對齊論文發布：大小模型相互博弈，輸出可讀性up