在對(duì)齊 AI 時(shí),為什么在線方法總是優(yōu)于離線方法?
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:在對(duì)齊 AI 時(shí),為什么在線方法總是優(yōu)于離線方法?
關(guān)鍵字:離線,算法,策略,性能,數(shù)據(jù)
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7306字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:Panda W在線和離線對(duì)齊算法的性能差距根源何在?DeepMind實(shí)證剖析出爐在 AI 對(duì)齊問(wèn)題上,在線方法似乎總是優(yōu)于離線方法,但為什么會(huì)這樣呢?近日,Google DeepMind 一篇論文試圖通過(guò)基于假設(shè)驗(yàn)證的實(shí)證研究給出解答。論文標(biāo)題:Understanding the performance gap between online and offline alignment algorithms
論文地址:https://arxiv.org/abs/2405.08448
根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)隨著大型語(yǔ)言模型(LLM)發(fā)展而日漸成為一種用于 AI 對(duì)齊的常用框架。不過(guò)近段時(shí)間,直接偏好優(yōu)化(DPO)等離線方法異軍突起 —— 無(wú)需主動(dòng)式的在線交互,使用離線數(shù)據(jù)集就能直接對(duì)齊 LLM。這類方法的效率很高,也已經(jīng)得到實(shí)證研究的證明。但這也引出了一個(gè)關(guān)鍵問(wèn)題:
AI 對(duì)齊是否必需在線強(qiáng)化學(xué)習(xí)?
對(duì)于這個(gè)問(wèn)題,人們希望既知道其理論上的答案,也希望明晰實(shí)驗(yàn)給出的解答。
從實(shí)證角度看,相比于大家常用的在線 RLHF(由偏好建模和從模型采樣組成),離線算法實(shí)現(xiàn)
原文鏈接:在對(duì)齊 AI 時(shí),為什么在線方法總是優(yōu)于離線方法?
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)
相關(guān)文章
