發布了新的Reinforcement Finetuning方法~
OpenAI發布新的強化微調方法
2024年12月6日,加州時間上午11點,OpenAI推出了一種新的強化微調方法(Reinforcement Finetuning,RFT),旨在構造專家模型,特別適用于醫療診斷和罕見病診斷等特定領域的決策問題。該方法允許用戶上傳幾十到幾千條訓練案例,通過微調實現高效決策。
強化微調的技術背景
此次發布的RFT方法基于廣泛應用于對齊(alignment)、數學和編碼領域的技術,前身為人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF)。RLHF通過用戶選擇偏好來訓練獎勵模型(reward model),并利用強化學習算法(如PPO和DPO)對模型進行微調,從而使模型生成更符合人類偏好的內容。
RFT的核心機制
OpenAI的RFT方法在少量數據的情況下,能夠掌握醫療診斷和科學決策過程。該方法本質上結合了鏈式推理(Chain of Thought,CoT)和強化學習(RL),通過生成多樣的推理路徑進行評分,并繼續進行RL微調。關鍵在于如何定義狀態轉變(state-transition)以及如何在token級別和完整響應級別之間找到平衡。
技術的局限性
盡管RFT展示了顯著的潛力,但在罕見病診斷等簡單決策樹任務上表現優異,并不代表其在更復雜科學問題上的有效性。真正的科學問題往往沒有固定選項,定義行動和問題的方式也更具挑戰性。此外,科學數據通常含有噪音,不如簡單的多選題清晰。
潛在風險與未來展望
在OpenAI發布RFT的同時,啟動了一個強化微調研究項目,邀請全球科研人員提交決策數據集。這引發了關于AI安全性和可控性的討論。科學研究集中在少數非開源公司手中,可能導致技術濫用和倫理風險。未來,如何確保AI技術的安全、可控和可追蹤,將是亟待解決的挑戰。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。