雙AI協作，數學成績飆升5分的神奇秘密！

合作才能更強！互相糾錯可提升LLM的數學能力。

原標題：微軟：兩個AI相互糾錯，數學再漲5分
文章來源：量子位
內容字數：5202字

最近，加州大學和微軟研究院提出了一種新的方法Flow-DPO，通過兩個大型語言模型（LLM）的合作，顯著提升了LLM在數學推理方面的能力。這一方法結合了在線學習流（Flow）和直接偏好優化（DPO），旨在生成更詳細和精確的推理軌跡，解決傳統LLM在數學問題上表現不佳的難題。

傳統的LLM在解決數學問題時，常常面臨反饋信息有限和標注數據質量不高的問題。Flow-DPO通過引入兩個的LLM（Answer LLM和Stop LLM），實現了更高效的解題過程。

Flow-DPO的工作流程可分為兩個部分：

（1）增量輸出生成Flow：Answer LLM逐步生成答案塊，Stop LLM則判斷每個答案塊是否達到最終狀態，兩個模型通過迭代學習不斷優化。

（2）在線Flow學習與回滾：在生成答案的過程中，Answer LLM會隨機生成不同的答案片段，并根據Stop LLM的反饋進行調整，確保最終選擇的答案是最優的。

研究團隊在MetaMath數據集上進行了驗證實驗，使用了兩種不同規模的模型：Llama-3-8B-Instruct和Phi-3-medium-128k-instruct。實驗結果表明，Flow-DPO顯著提升了模型的數學推理能力：

（1）在漸進驗證準確率方面，Llama-3-8B-Instruct的性能提高了20%，而Phi-3-medium-128k-instruct的準確率提升了4個百分點，達到了83%。

（2）Flow生成的推理軌跡質量優于基線模型，Llama-3-8B-Instruct在GSM8K和MATH數據集上的微調準確率分別提高了6%和7.8%。

Flow-DPO的成功展示了兩個模型的合作能夠有效解決復雜數學問題，提高了LLM的邏輯分析能力和推理質量。隨著技術的進步，未來的LLM有望在更多領域展現其潛力，解決更復雜的問題。

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...