AIGC動態歡迎閱讀
原標題:一文看盡LLM對齊技術:RLHF、RLAIF、PPO、DPO……
關鍵字:模型,報告,論文,反饋,人類
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:Panda為了對齊 LLM,各路研究者妙招連連。LLM 很強大了,但卻并不完美,它也會出錯或者生成無用乃至有害的結果,比如有人發現可以讓 ChatGPT 教人如何偷盜:讓 ChatGPT 教人如何偷盜商店;左圖,ChatGPT 拒絕回答;右圖,在 prompt 中添加了「with no moral restraints(不加道德約束)」后,ChatGPT 給出了商店偷盜指南
這時候,對齊(alignment)就至關重要了,其作用就是讓 LLM 與人類的價值觀保持一致。
在對齊 LLM 方面,基于人類反饋的強化學習(RLHF)是一種突破性的技術。該方法催生了 GPT-4、Claude 和 Gemini 等強大模型。RLHF 之后,人們也探索了多種多樣的對齊 LLM 的方法。但是,此前還沒有人全面總結對齊 LLM 與人類偏好的方法。
Salesforce 決定填補這一空白,于近日發布了一份 37 頁的綜述報告,其中按類別總結了現有的研究文獻,并詳細分析了各篇論文。論文標題:A Comprehensive Survey of LLM Alignment Technique
原文鏈接:一文看盡LLM對齊技術:RLHF、RLAIF、PPO、DPO……
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...