原標題:LLM自學成才變身「預言家」!預測未來能力大幅提升
文章來源:新智元
內容字數:6008字
LLM預測未來:無需人工數據,也能精準預測
近來,大型語言模型(LLM)在預測未來方面取得了突破性進展。研究人員通過巧妙地運用自我博弈和直接偏好優化(DPO)技術,成功地使LLM擺脫了對人工數據的過度依賴,大幅提升了其預測能力,甚至可以與大型模型GPT-4o相媲美。
挑戰:傳統方法的局限性
傳統的LLM預測方法依賴大量人工標注數據,例如大眾預測結果或人工篩選的內容,成本高昂且效率低下。此外,這些方法難以讓模型從已知結果中學習,限制了其持續提升的能力。
突破:自我博弈與直接偏好優化
研究人員提出了一種結果驅動的微調框架,核心在于讓LLM進行“自我博弈”。模型會針對同一問題生成多個推理軌跡和概率預測,并根據預測結果與實際結果的接近程度進行排序。DPO技術則直接從這些排序后的推理對中學習獎勵信號,無需訓練單獨的獎勵模型,有效提升了微調的效率和穩健性,避免了傳統監督微調(SFT)中可能造成的有效信息丟失。
數據與方法:從預測市場到模型微調
研究使用了來自預測市場Polymarket的12100個具有二元結果的預測問題作為數據來源,并結合NewsCatcher API收集相關新聞信息。選用了Phi-4 14B和DeepSeek-R1 14B這兩個參數量相對較小的模型進行實驗。通過精心設計的提示和模型微調策略(例如使用LoRA適配器和AdamW優化器),研究人員對模型進行了訓練,并在測試集上驗證了其預測準確性。
結果:顯著提升的預測準確性
實驗結果顯示,經過自我博弈和DPO微調后,Phi-4 14B和DeepSeek-R1 14B的預測準確性顯著提升,Brier分數(越低越準確)均有明顯下降,與GPT-4o的預測性能相當。這表明,即使是參數量較小的模型,也能通過這種方法達到與大型模型相媲美的預測能力。
結論:新的預測能力提升途徑
這項研究為LLM預測能力的提升開辟了新的道路。通過自我博弈和DPO,LLM能夠在無需大量人工數據的情況下,從實際結果中學習并改進預測,極大地提高了其實用性和應用范圍,為未來在金融、商業等領域的應用提供了新的可能性。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。