AIGC動態歡迎閱讀
原標題:從RLHF到DPO再到TDPO,大模型對齊算法已經是「token-level」
關鍵字:模型,函數,建模,算法,表示
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務于人類社會。早期的努力集中于通過人類反饋的強化學習方法(RLHF)來管理這些模型,成效顯著,標志著向更加人性化 AI 邁出的關鍵一步。
盡管 RLHF 取得了巨大成功,但是在訓練過程中 RLHF 非常消耗資源。因此,近段時間學者們在 RLHF 奠定的堅實基礎上,繼續探索更為簡單且高效的策略優化路徑,催生了直接偏好優化(DPO)的誕生。DPO 通過數學推理得到獎勵函數與最優策略之間的直接映射,消除了獎勵模型的訓練過程,直接在偏好數據上優化策略模型,實現了從「反饋到策略」的直觀飛躍。這不僅減少了復雜度,還增強了算法的穩健性,迅速成為業界的新寵。
然而
原文鏈接:從RLHF到DPO再到TDPO,大模型對齊算法已經是「token-level」
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...