雙AI協(xié)作,數(shù)學(xué)成績(jī)飆升5分的神奇秘密!
合作才能更強(qiáng)!互相糾錯(cuò)可提升LLM的數(shù)學(xué)能力。
原標(biāo)題:微軟:兩個(gè)AI相互糾錯(cuò),數(shù)學(xué)再漲5分
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):5202字
提升LLM數(shù)學(xué)能力的新方法:Flow-DPO
最近,加州大學(xué)和微軟研究院提出了一種新的方法Flow-DPO,通過(guò)兩個(gè)大型語(yǔ)言模型(LLM)的合作,顯著提升了LLM在數(shù)學(xué)推理方面的能力。這一方法結(jié)合了在線學(xué)習(xí)流(Flow)和直接偏好優(yōu)化(DPO),旨在生成更詳細(xì)和精確的推理軌跡,解決傳統(tǒng)LLM在數(shù)學(xué)問(wèn)題上表現(xiàn)不佳的難題。
1. 研究背景
傳統(tǒng)的LLM在解決數(shù)學(xué)問(wèn)題時(shí),常常面臨反饋信息有限和標(biāo)注數(shù)據(jù)質(zhì)量不高的問(wèn)題。Flow-DPO通過(guò)引入兩個(gè)的LLM(Answer LLM和Stop LLM),實(shí)現(xiàn)了更高效的解題過(guò)程。
2. 方
Flow-DPO的工作流程可分為兩個(gè)部分:
(1)增量輸出生成Flow:Answer LLM逐步生成答案塊,Stop LLM則判斷每個(gè)答案塊是否達(dá)到最終狀態(tài),兩個(gè)模型通過(guò)迭代學(xué)習(xí)不斷優(yōu)化。
(2)在線Flow學(xué)習(xí)與回滾:在生成答案的過(guò)程中,Answer LLM會(huì)隨機(jī)生成不同的答案片段,并根據(jù)Stop LLM的反饋進(jìn)行調(diào)整,確保最終選擇的答案是最優(yōu)的。
3. 實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)在MetaMath數(shù)據(jù)集上進(jìn)行了驗(yàn)證實(shí)驗(yàn),使用了兩種不同規(guī)模的模型:Llama-3-8B-Instruct和Phi-3-medium-128k-instruct。實(shí)驗(yàn)結(jié)果表明,F(xiàn)low-DPO顯著提升了模型的數(shù)學(xué)推理能力:
(1)在漸進(jìn)驗(yàn)證準(zhǔn)確率方面,Llama-3-8B-Instruct的性能提高了20%,而Phi-3-medium-128k-instruct的準(zhǔn)確率提升了4個(gè)百分點(diǎn),達(dá)到了83%。
(2)Flow生成的推理軌跡質(zhì)量?jī)?yōu)于基線模型,Llama-3-8B-Instruct在GSM8K和MATH數(shù)據(jù)集上的微調(diào)準(zhǔn)確率分別提高了6%和7.8%。
4. 結(jié)論
Flow-DPO的成功展示了兩個(gè)模型的合作能夠有效解決復(fù)雜數(shù)學(xué)問(wèn)題,提高了LLM的邏輯分析能力和推理質(zhì)量。隨著技術(shù)的進(jìn)步,未來(lái)的LLM有望在更多領(lǐng)域展現(xiàn)其潛力,解決更復(fù)雜的問(wèn)題。
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破