在對齊 AI 時，為什么在線方法總是優(yōu)于離線方法？

AIGC動態(tài)2年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：在對齊 AI 時，為什么在線方法總是優(yōu)于離線方法？
關(guān)鍵字：離線,算法,策略,性能,數(shù)據(jù)
文章來源：機器之心
內(nèi)容字?jǐn)?shù)：7306字

內(nèi)容摘要：

機器之心報道
編輯：Panda W在線和離線對齊算法的性能差距根源何在？DeepMind實證剖析出爐在 AI 對齊問題上，在線方法似乎總是優(yōu)于離線方法，但為什么會這樣呢？近日，Google DeepMind 一篇論文試圖通過基于假設(shè)驗證的實證研究給出解答。論文標(biāo)題：Understanding the performance gap between online and offline alignment algorithms
論文地址：https://arxiv.org/abs/2405.08448
根據(jù)人類反饋的強化學(xué)習(xí)（RLHF）隨著大型語言模型（LLM）發(fā)展而日漸成為一種用于 AI 對齊的常用框架。不過近段時間，直接偏好優(yōu)化（DPO）等離線方法異軍突起 —— 無需主動式的在線交互，使用離線數(shù)據(jù)集就能直接對齊 LLM。這類方法的效率很高，也已經(jīng)得到實證研究的證明。但這也引出了一個關(guān)鍵問題：
AI 對齊是否必需在線強化學(xué)習(xí)？
對于這個問題，人們希望既知道其理論上的答案，也希望明晰實驗給出的解答。
從實證角度看，相比于大家常用的在線 RLHF（由偏好建模和從模型采樣組成），離線算法實現(xiàn)

原文鏈接：在對齊 AI 時，為什么在線方法總是優(yōu)于離線方法？

聯(lián)系作者

文章來源：機器之心
作者微信：almosthuman2014
作者簡介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

閱讀原文

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

在對齊 AI 時，為什么在線方法總是優(yōu)于離線方法？

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

OpenAI CEO下場回應(yīng)「封口協(xié)議」，爭議還是到了股權(quán)利益上，奧特曼：我的鍋

GPT-4o 與 Gemini 能否用多模態(tài)撬開下一代 AI 的新進(jìn)程？

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

在對齊 AI 時，為什么在線方法總是優(yōu)于離線方法？

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

OpenAI CEO下場回應(yīng)「封口協(xié)議」，爭議還是到了股權(quán)利益上，奧特曼：我的鍋

GPT-4o 與 Gemini 能否用多模態(tài)撬開下一代 AI 的新進(jìn)程？

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

在對齊 AI 時，為什么在線方法總是優(yōu)于離線方法？

GPT-4o 與 Gemini 能否用多模態(tài)撬開下一代 AI 的新進(jìn)程？