人類偏好就是尺！SPPO對齊技術讓大語言模型左右互搏、自我博弈

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：人類偏好就是尺！SPPO對齊技術讓大語言模型左右互搏、自我博弈
關鍵字：模型,人類,語言,自我,算法
文章來源：機器之心
內容字數：5143字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.comRichard Sutton 在「The Bitter Lesson」中做過這樣的評價：「從70年的人工智能研究中可以得出的最重要教訓是，那些利用計算的通用方法最終是最有效的，而且優勢巨大。」
自我博弈（self play）就是這樣一種同時利用搜索和學習從而充分利用和擴大計算規模的方法。
今年年初，加利福尼亞大學洛杉磯分校（UCLA）的顧全全教授團隊提出了一種自我博弈微調方法 (Self-Play Fine-Tuning, SPIN)，可不使用額外微調數據，僅靠自我博弈就能大幅提升 LLM 的能力。
最近，顧全全教授團隊和卡內基梅隆大學（CMU）Yiming Yang教授團隊合作開發了一種名為「自我博弈偏好優化（Self-Play Preference Op

原文鏈接：人類偏好就是尺！SPPO對齊技術讓大語言模型左右互搏、自我博弈