AIGC動態歡迎閱讀
原標題:賈佳亞團隊新作:10k數據讓大模型數學能力超GPT-4
關鍵字:模型,步驟,錯誤,數據,數學
文章來源:量子位
內容字數:0字
內容摘要:
港中文賈佳亞團隊 投稿量子位 | 公眾號 QbitAI只要10k數據,就能讓大模型的數學成績增長5.6%。
港中文賈佳亞團隊推出了基于推理步驟的大模型優化策略,能夠像老師教學生一樣優化大模型。
利用這種方法,72B Qwen模型的數學成績超越了GPT-4、Gemini1.5-Pro和Claude3-Opus等一眾閉源模型。
老師在糾正學生錯誤時,不會只告訴學生最終答案錯了,還會告知具體哪個步驟錯了,以此快速糾正其錯誤。
賈佳亞團隊正是學習了這一特點,將斯坦福團隊推出的DPO(直接偏好優化)進一步細化,形成了逐步應用的策略Step-DPO。
該方法讓Qwen-72B模型在多個數據集上進步明顯,同時也獲得了更強的長鏈條推理任務能力。
像教育學生一樣訓練大模型如何強化推理能力,一直是大語言模型領域的重要問題之一。
常見的思維鏈策略通過在輸入提示詞部分添加“Let’s think step by step.”,來使模型在輸出中完成逐步推理,但對于復雜的問題,僅通過修改提示詞不足以引導模型正確解決問題。
由于復雜問題涉及的推理過程較長,有時包含數十個推理步驟,一旦其中任一步驟出錯,就難以得到正確
原文鏈接:賈佳亞團隊新作:10k數據讓大模型數學能力超GPT-4
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...