「專業(yè)智能體指導(dǎo)」讓小模型學(xué)會(huì)數(shù)學(xué)推理!微調(diào)Mistral-7B實(shí)現(xiàn)86.81%準(zhǔn)確率
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:「專業(yè)智能體指導(dǎo)」讓小模型學(xué)會(huì)數(shù)學(xué)推理!微調(diào)Mistral-7B實(shí)現(xiàn)86.81%準(zhǔn)確率
關(guān)鍵字:問(wèn)題,模型,研究人員,數(shù)據(jù),答案
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):11677字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS
【新智元導(dǎo)讀】小模型也能解鎖數(shù)學(xué)能力,無(wú)需多模型集成,7B模型在GSM 8 k數(shù)據(jù)集上性能超越70B!對(duì)于小型語(yǔ)言模型(SLM)來(lái)說(shuō),數(shù)學(xué)應(yīng)用題求解是一項(xiàng)很復(fù)雜的任務(wù)。
比如之前有研究結(jié)果顯示,在GSM 8K基準(zhǔn)測(cè)試中實(shí)現(xiàn)80%以上準(zhǔn)確度所需的最小模型尺寸為340億個(gè)參數(shù)。
為了在較小的模型上達(dá)到這種性能水平,研究人員經(jīng)常訓(xùn)練SLM來(lái)生成Python代碼或使用外部工具作為輔助,以避免計(jì)算錯(cuò)誤。
或是基于集成(ensembling)技術(shù),將100多個(gè)模型生成的輸出組合在一起,以獲得更準(zhǔn)確的結(jié)果,最終結(jié)果的選擇需要通過(guò)、多數(shù)表決或與SLM結(jié)合使用的單獨(dú)的驗(yàn)證器模型來(lái)完成,可以顯著提升準(zhǔn)確率(Phi-GSM使用top-48將性能從68.2提升到81.5),不過(guò)代價(jià)是由于多次調(diào)用模型導(dǎo)致的成本顯著增加。
最近,微軟的研究人員提出了一個(gè)基于Mistral-7B、70億參數(shù)量的小型語(yǔ)言模型Orca-Math,它在GSM 8 k上實(shí)現(xiàn)了86.81%,不需要調(diào)用多個(gè)模型進(jìn)行集成或使用驗(yàn)證器、代碼執(zhí)行或任何其他外部工具。論文鏈接:https://arxiv.org/abs/
原文鏈接:「專業(yè)智能體指導(dǎo)」讓小模型學(xué)會(huì)數(shù)學(xué)推理!微調(diào)Mistral-7B實(shí)現(xiàn)86.81%準(zhǔn)確率
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。