通過改變 LLM 訓練目標,可以重用現有數據以及更多的測試時計算來訓練模型以做得更好。
原標題:如何優化測試時計算?解決「元強化學習」問題
文章來源:機器之心
內容字數:8062字
優化大模型測試時計算:一種基于元強化學習的新方法
本文探討了如何通過優化大型語言模型(LLM)的測試時計算來提升模型效率和解決數據瓶頸問題。傳統LLM訓練方法主要依賴于大量高質量數據進行監督微調或強化學習,但這種方法面臨數據耗盡和擴展瓶頸。
1. 傳統方法的局限性
傳統的LLM訓練方法側重于讓模型產生最佳輸出結果,即學習“什么答案”。這種“一刀切”的方法在面對分布外查詢或復雜推理問題時,表現不佳,無法有效適應任務的異質性。
2. 新的訓練目標:學習“如何回答”
文章提出了一種新的訓練方法,即讓模型在測試時利用計算資源,學習“元策略”或算法,從而理解“如何”得出正確答案,而不是直接學習“什么答案”。這種方法旨在賦予模型系統性程序運行能力,使其能夠在測試時泛化到不同復雜度的輸入查詢。
3. 將“學習如何回答”形式化為元強化學習問題
文章將“學習如何回答”的目標形式化為一個優化問題,并通過元強化學習的思路來解決。每個問題被視為一個馬爾可夫決策過程(MDP),模型生成的token序列作為動作,獎勵函數則根據答案的正確性進行評估。學習目標是找到一個算法,在有限的計算預算內,能夠快速適應測試問題的分布,并獲得高獎勵。
4. 元強化學習的應用
文章建議使用元強化學習方法來解決該優化問題。模型通過在測試時執行多個“訓練”回合來適應測試任務,然后在測試回合上進行評估。每個回合都應提供信息增益,以便在后續回合中表現更好。即使沒有外部工具,模型也能通過調整先前生成的token來獲得信息,改進對最優解的后驗近似。
5. 解決元強化學習問題的方法
文章探討了兩種解決元強化學習問題的方法:一種是使用黑盒元強化學習方法,最大化輸出軌跡中“episodes”的獎勵總和;另一種是只優化測試回合的獎勵,避免量化信息增益的需要。這兩種方法都可以通過多輪強化學習算法來實現。
6. 總結
文章提出了一種通過優化LLM測試時計算來提升模型性能的新方法,該方法將訓練目標從學習“什么答案”轉變為學習“如何回答”,并利用元強化學習來解決相應的優化問題。這種方法有望克服傳統LLM訓練方法的數據瓶頸,并提升模型在復雜推理任務中的表現。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺