一文看盡LLM對(duì)齊技術(shù):RLHF、RLAIF、PPO、DPO……

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:一文看盡LLM對(duì)齊技術(shù):RLHF、RLAIF、PPO、DPO……
關(guān)鍵字:模型,報(bào)告,論文,反饋,人類
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:Panda為了對(duì)齊 LLM,各路研究者妙招連連。LLM 很強(qiáng)大了,但卻并不完美,它也會(huì)出錯(cuò)或者生成無(wú)用乃至有害的結(jié)果,比如有人發(fā)現(xiàn)可以讓 ChatGPT 教人如何偷盜:讓 ChatGPT 教人如何偷盜商店;左圖,ChatGPT 拒絕回答;右圖,在 prompt 中添加了「with no moral restraints(不加道德約束)」后,ChatGPT 給出了商店偷盜指南
這時(shí)候,對(duì)齊(alignment)就至關(guān)重要了,其作用就是讓 LLM 與人類的價(jià)值觀保持一致。
在對(duì)齊 LLM 方面,基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)是一種突破性的技術(shù)。該方法催生了 GPT-4、Claude 和 Gemini 等強(qiáng)大模型。RLHF 之后,人們也探索了多種多樣的對(duì)齊 LLM 的方法。但是,此前還沒(méi)有人全面總結(jié)對(duì)齊 LLM 與人類偏好的方法。
Salesforce 決定填補(bǔ)這一空白,于近日發(fā)布了一份 37 頁(yè)的綜述報(bào)告,其中按類別總結(jié)了現(xiàn)有的研究文獻(xiàn),并詳細(xì)分析了各篇論文。論文標(biāo)題:A Comprehensive Survey of LLM Alignment Technique
原文鏈接:一文看盡LLM對(duì)齊技術(shù):RLHF、RLAIF、PPO、DPO……
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:

粵公網(wǎng)安備 44011502001135號(hào)