解鎖復(fù)雜數(shù)學(xué)推理的秘密:通過(guò)多模態(tài)慢思考逐步拆解原子步驟
該方法在解決問(wèn)題的每一步都始終保持著較高的推理質(zhì)量。
原標(biāo)題:多模態(tài)慢思考:分解原子步驟以解決復(fù)雜數(shù)學(xué)推理
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6019字
AtomThink:提升多模態(tài)大語(yǔ)言模型的數(shù)學(xué)推理能力
在人工智能領(lǐng)域,高階數(shù)學(xué)推理一直是一個(gè)復(fù)雜的挑戰(zhàn)。為此,中山大學(xué)、香港科技大學(xué)、上海交通大學(xué)及華為諾亞方舟實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了AtomThink框架,旨在通過(guò)引入“慢思考”能力來(lái)提升多模態(tài)大語(yǔ)言模型(MLLM)的數(shù)學(xué)推理性能。本文將對(duì)此框架及其背景進(jìn)行簡(jiǎn)要概述。
1. 背景與挑戰(zhàn)
隨著OpenAI的強(qiáng)人工智能技術(shù)的發(fā)展,如何在視覺(jué)數(shù)學(xué)任務(wù)中有效應(yīng)用“慢思考”技術(shù)成為了研究的熱點(diǎn)。然而,現(xiàn)有模型在信息建模的質(zhì)量上存在不足,尤其是在推理鏈中間步驟的質(zhì)量評(píng)估上。這些缺陷使得針對(duì)性性能提升變得困難。
2. 原子步驟質(zhì)量評(píng)估
本研究首次提出了一種原子步驟質(zhì)量評(píng)估策略,關(guān)注語(yǔ)義維度的最小推理步驟。通過(guò)分析GPT-4o的推理行為,建立了一個(gè)規(guī)范的推理能力集合,并評(píng)估當(dāng)前開(kāi)源模型的原子步驟質(zhì)量,發(fā)現(xiàn)其在多個(gè)能力項(xiàng)上表現(xiàn)欠佳。
3. AtomThink慢思考框架
AtomThink框架由三部分組成:多模態(tài)注釋引擎、原子步驟微調(diào)和策略搜索。動(dòng)態(tài)提示和短CoT增強(qiáng)策略用于生成高質(zhì)量的推理路徑,并構(gòu)建AtomMATH數(shù)據(jù)集,以支持模型的指令微調(diào)和過(guò)程監(jiān)督訓(xùn)練。
4. 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)表明,AtomThink框架在多模態(tài)數(shù)學(xué)推理任務(wù)中表現(xiàn)優(yōu)異。使用QuickThink和SlowThink兩種推理范式時(shí),模型的性能顯著提升,尤其在MathVista和MathVerse任務(wù)上,AtomThink版本超越基線(xiàn)模型,顯示出強(qiáng)大的可擴(kuò)展性。
5. 總結(jié)與展望
通過(guò)引入原子思維能力,AtomThink框架有效提升了多模態(tài)大語(yǔ)言模型的數(shù)學(xué)推理性能,并為未來(lái)開(kāi)發(fā)更廣泛的慢思考模型奠定了基礎(chǔ)。研究團(tuán)隊(duì)發(fā)布了高質(zhì)量的長(zhǎng)CoT數(shù)據(jù)集,期待在學(xué)術(shù)界和工業(yè)界的進(jìn)一步應(yīng)用。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)