賈佳亞團(tuán)隊(duì)新作:10k數(shù)據(jù)讓大模型數(shù)學(xué)能力超GPT-4
AIGC動態(tài)歡迎閱讀
原標(biāo)題:賈佳亞團(tuán)隊(duì)新作:10k數(shù)據(jù)讓大模型數(shù)學(xué)能力超GPT-4
關(guān)鍵字:模型,步驟,錯誤,數(shù)據(jù),數(shù)學(xué)
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
港中文賈佳亞團(tuán)隊(duì) 投稿量子位 | 公眾號 QbitAI只要10k數(shù)據(jù),就能讓大模型的數(shù)學(xué)成績增長5.6%。
港中文賈佳亞團(tuán)隊(duì)推出了基于推理步驟的大模型優(yōu)化策略,能夠像老師教學(xué)生一樣優(yōu)化大模型。
利用這種方法,72B Qwen模型的數(shù)學(xué)成績超越了GPT-4、Gemini1.5-Pro和Claude3-Opus等一眾閉源模型。
老師在糾正學(xué)生錯誤時,不會只告訴學(xué)生最終答案錯了,還會告知具體哪個步驟錯了,以此快速糾正其錯誤。
賈佳亞團(tuán)隊(duì)正是學(xué)習(xí)了這一特點(diǎn),將斯坦福團(tuán)隊(duì)推出的DPO(直接偏好優(yōu)化)進(jìn)一步細(xì)化,形成了逐步應(yīng)用的策略Step-DPO。
該方法讓Qwen-72B模型在多個數(shù)據(jù)集上進(jìn)步明顯,同時也獲得了更強(qiáng)的長鏈條推理任務(wù)能力。
像教育學(xué)生一樣訓(xùn)練大模型如何強(qiáng)化推理能力,一直是大語言模型領(lǐng)域的重要問題之一。
常見的思維鏈策略通過在輸入提示詞部分添加“Let’s think step by step.”,來使模型在輸出中完成逐步推理,但對于復(fù)雜的問題,僅通過修改提示詞不足以引導(dǎo)模型正確解決問題。
由于復(fù)雜問題涉及的推理過程較長,有時包含數(shù)十個推理步驟,一旦其中任一步驟出錯,就難以得到正確
原文鏈接:賈佳亞團(tuán)隊(duì)新作:10k數(shù)據(jù)讓大模型數(shù)學(xué)能力超GPT-4
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
相關(guān)文章
