解鎖復(fù)雜數(shù)學(xué)推理的秘密:通過多模態(tài)慢思考逐步拆解原子步驟
該方法在解決問題的每一步都始終保持著較高的推理質(zhì)量。
原標(biāo)題:多模態(tài)慢思考:分解原子步驟以解決復(fù)雜數(shù)學(xué)推理
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6019字
AtomThink:提升多模態(tài)大語言模型的數(shù)學(xué)推理能力
在人工智能領(lǐng)域,高階數(shù)學(xué)推理一直是一個(gè)復(fù)雜的挑戰(zhàn)。為此,中山大學(xué)、香港科技大學(xué)、上海交通大學(xué)及華為諾亞方舟實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了AtomThink框架,旨在通過引入“慢思考”能力來提升多模態(tài)大語言模型(MLLM)的數(shù)學(xué)推理性能。本文將對此框架及其背景進(jìn)行簡要概述。
1. 背景與挑戰(zhàn)
隨著OpenAI的強(qiáng)人工智能技術(shù)的發(fā)展,如何在視覺數(shù)學(xué)任務(wù)中有效應(yīng)用“慢思考”技術(shù)成為了研究的熱點(diǎn)。然而,現(xiàn)有模型在信息建模的質(zhì)量上存在不足,尤其是在推理鏈中間步驟的質(zhì)量評估上。這些缺陷使得針對性性能提升變得困難。
2. 原子步驟質(zhì)量評估
本研究首次提出了一種原子步驟質(zhì)量評估策略,關(guān)注語義維度的最小推理步驟。通過分析GPT-4o的推理行為,建立了一個(gè)規(guī)范的推理能力集合,并評估當(dāng)前開源模型的原子步驟質(zhì)量,發(fā)現(xiàn)其在多個(gè)能力項(xiàng)上表現(xiàn)欠佳。
3. AtomThink慢思考框架
AtomThink框架由三部分組成:多模態(tài)注釋引擎、原子步驟微調(diào)和策略搜索。動態(tài)提示和短CoT增強(qiáng)策略用于生成高質(zhì)量的推理路徑,并構(gòu)建AtomMATH數(shù)據(jù)集,以支持模型的指令微調(diào)和過程監(jiān)督訓(xùn)練。
4. 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)表明,AtomThink框架在多模態(tài)數(shù)學(xué)推理任務(wù)中表現(xiàn)優(yōu)異。使用QuickThink和SlowThink兩種推理范式時(shí),模型的性能顯著提升,尤其在MathVista和MathVerse任務(wù)上,AtomThink版本超越基線模型,顯示出強(qiáng)大的可擴(kuò)展性。
5. 總結(jié)與展望
通過引入原子思維能力,AtomThink框架有效提升了多模態(tài)大語言模型的數(shù)學(xué)推理性能,并為未來開發(fā)更廣泛的慢思考模型奠定了基礎(chǔ)。研究團(tuán)隊(duì)發(fā)布了高質(zhì)量的長CoT數(shù)據(jù)集,期待在學(xué)術(shù)界和工業(yè)界的進(jìn)一步應(yīng)用。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺