賈佳亞團隊新作：10k數據讓大模型數學能力超GPT-4

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：賈佳亞團隊新作：10k數據讓大模型數學能力超GPT-4
關鍵字：模型,步驟,錯誤,數據,數學
文章來源：量子位
內容字數：0字

內容摘要：

港中文賈佳亞團隊投稿量子位 | 公眾號 QbitAI只要10k數據，就能讓大模型的數學成績增長5.6%。
港中文賈佳亞團隊推出了基于推理步驟的大模型優化策略，能夠像老師教學生一樣優化大模型。
利用這種方法，72B Qwen模型的數學成績超越了GPT-4、Gemini1.5-Pro和Claude3-Opus等一眾閉源模型。
老師在糾正學生錯誤時，不會只告訴學生最終答案錯了，還會告知具體哪個步驟錯了，以此快速糾正其錯誤。
賈佳亞團隊正是學習了這一特點，將斯坦福團隊推出的DPO（直接偏好優化）進一步細化，形成了逐步應用的策略Step-DPO。
該方法讓Qwen-72B模型在多個數據集上進步明顯，同時也獲得了更強的長鏈條推理任務能力。
像教育學生一樣訓練大模型如何強化推理能力，一直是大語言模型領域的重要問題之一。
常見的思維鏈策略通過在輸入提示詞部分添加“Let’s think step by step.”，來使模型在輸出中完成逐步推理，但對于復雜的問題，僅通過修改提示詞不足以引導模型正確解決問題。
由于復雜問題涉及的推理過程較長，有時包含數十個推理步驟，一旦其中任一步驟出錯，就難以得到正確

原文鏈接：賈佳亞團隊新作：10k數據讓大模型數學能力超GPT-4