「專業(yè)智能體指導(dǎo)」讓小模型學(xué)會(huì)數(shù)學(xué)推理！微調(diào)Mistral-7B實(shí)現(xiàn)86.81%準(zhǔn)確率

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布新智元

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：「專業(yè)智能體指導(dǎo)」讓小模型學(xué)會(huì)數(shù)學(xué)推理！微調(diào)Mistral-7B實(shí)現(xiàn)86.81%準(zhǔn)確率
關(guān)鍵字：問(wèn)題,模型,研究人員,數(shù)據(jù),答案
文章來(lái)源：新智元
內(nèi)容字?jǐn)?shù)：11677字

內(nèi)容摘要：

新智元報(bào)道編輯：LRS
【新智元導(dǎo)讀】小模型也能解鎖數(shù)學(xué)能力，無(wú)需多模型集成，7B模型在GSM 8 k數(shù)據(jù)集上性能超越70B！對(duì)于小型語(yǔ)言模型（SLM）來(lái)說(shuō)，數(shù)學(xué)應(yīng)用題求解是一項(xiàng)很復(fù)雜的任務(wù)。
比如之前有研究結(jié)果顯示，在GSM 8K基準(zhǔn)測(cè)試中實(shí)現(xiàn)80%以上準(zhǔn)確度所需的最小模型尺寸為340億個(gè)參數(shù)。
為了在較小的模型上達(dá)到這種性能水平，研究人員經(jīng)常訓(xùn)練SLM來(lái)生成Python代碼或使用外部工具作為輔助，以避免計(jì)算錯(cuò)誤。
或是基于集成（ensembling）技術(shù)，將100多個(gè)模型生成的輸出組合在一起，以獲得更準(zhǔn)確的結(jié)果，最終結(jié)果的選擇需要通過(guò)、多數(shù)表決或與SLM結(jié)合使用的單獨(dú)的驗(yàn)證器模型來(lái)完成，可以顯著提升準(zhǔn)確率（Phi-GSM使用top-48將性能從68.2提升到81.5），不過(guò)代價(jià)是由于多次調(diào)用模型導(dǎo)致的成本顯著增加。
最近，微軟的研究人員提出了一個(gè)基于Mistral-7B、70億參數(shù)量的小型語(yǔ)言模型Orca-Math，它在GSM 8 k上實(shí)現(xiàn)了86.81%，不需要調(diào)用多個(gè)模型進(jìn)行集成或使用驗(yàn)證器、代碼執(zhí)行或任何其他外部工具。論文鏈接：https://arxiv.org/abs/

原文鏈接：「專業(yè)智能體指導(dǎo)」讓小模型學(xué)會(huì)數(shù)學(xué)推理！微調(diào)Mistral-7B實(shí)現(xiàn)86.81%準(zhǔn)確率

聯(lián)系作者

文章來(lái)源：新智元
作者微信：AI_era
作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文