LLM自學成才變身「預言家」！預測未來能力大幅提升

AIGC動態5個月前發布新智元

378 0 0

原標題：LLM自學成才變身「預言家」！預測未來能力大幅提升
文章來源：新智元
內容字數：6008字

LLM預測未來：無需人工數據，也能精準預測

近來，大型語言模型(LLM)在預測未來方面取得了突破性進展。研究人員通過巧妙地運用自我博弈和直接偏好優化(DPO)技術，成功地使LLM擺脫了對人工數據的過度依賴，大幅提升了其預測能力，甚至可以與大型模型GPT-4o相媲美。

挑戰：傳統方法的局限性
傳統的LLM預測方法依賴大量人工標注數據，例如大眾預測結果或人工篩選的內容，成本高昂且效率低下。此外，這些方法難以讓模型從已知結果中學習，限制了其持續提升的能力。
突破：自我博弈與直接偏好優化
研究人員提出了一種結果驅動的微調框架，核心在于讓LLM進行“自我博弈”。模型會針對同一問題生成多個推理軌跡和概率預測，并根據預測結果與實際結果的接近程度進行排序。DPO技術則直接從這些排序后的推理對中學習獎勵信號，無需訓練單獨的獎勵模型，有效提升了微調的效率和穩健性，避免了傳統監督微調(SFT)中可能造成的有效信息丟失。
數據與方法：從預測市場到模型微調
研究使用了來自預測市場Polymarket的12100個具有二元結果的預測問題作為數據來源，并結合NewsCatcher API收集相關新聞信息。選用了Phi-4 14B和DeepSeek-R1 14B這兩個參數量相對較小的模型進行實驗。通過精心設計的提示和模型微調策略(例如使用LoRA適配器和AdamW優化器)，研究人員對模型進行了訓練，并在測試集上驗證了其預測準確性。
結果：顯著提升的預測準確性
實驗結果顯示，經過自我博弈和DPO微調后，Phi-4 14B和DeepSeek-R1 14B的預測準確性顯著提升，Brier分數（越低越準確）均有明顯下降，與GPT-4o的預測性能相當。這表明，即使是參數量較小的模型，也能通過這種方法達到與大型模型相媲美的預測能力。
結論：新的預測能力提升途徑
這項研究為LLM預測能力的提升開辟了新的道路。通過自我博弈和DPO，LLM能夠在無需大量人工數據的情況下，從實際結果中學習并改進預測，極大地提高了其實用性和應用范圍，為未來在金融、商業等領域的應用提供了新的可能性。