綜合RLHF、DPO、KTO優(yōu)勢，統(tǒng)一對齊框架UNA來了

AIGC動態(tài)1年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標題：綜合RLHF、DPO、KTO優(yōu)勢，統(tǒng)一對齊框架UNA來了
關鍵字：模型,函數,反饋,數據,策略
文章來源：機器之心
內容字數：0字

內容摘要：

AIxiv專欄是機器之心發(fā)布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業(yè)的頂級實驗室，有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com論文主要作者：
1. 王智超：本科就讀于廈門大學土木工程系，研究生博士就讀于佐治亞理工并獲得土木工程和計算機工程碩士及機械工程博士，現(xiàn)任職于 Salesforce，專注于 LLM Alignment。
2. 閉彬：本科就讀于華中科技大學計算機工程系，研究生就讀于香港大學計算機科學系，博士就讀于 UCLA 計算機科學系，現(xiàn)任職于 Salesforce，專注于 LLM Alignment。
3. 黃燦：廈門大學數學系副教授
隨著大規(guī)模語言模型的快速發(fā)展，如 GPT、Claude 等，LLM 通過預訓練海量的文本數據展現(xiàn)了驚人的語言生成能力。然而，即便如此，LLM 仍然存在生成不當或偏離預期的結果。這種現(xiàn)象在推理過程中尤為突出，常常導致不準確、不符合語境或不合倫理的

原文鏈接：綜合RLHF、DPO、KTO優(yōu)勢，統(tǒng)一對齊框架UNA來了