超越CoT!微軟劍橋中科院提出MVoT,直接可視化多模態(tài)推理過程
原標(biāo)題:超越CoT!微軟劍橋中科院提出MVoT,直接可視化多模態(tài)推理過程
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):6269字
微軟劍橋大學(xué)推出多模態(tài)思維可視化MVoT:大模型也擁有“空間想象力”
本文總結(jié)了微軟研究院、劍橋大學(xué)和中科院研究人員提出的多模態(tài)思維可視化(MVoT)方法,該方法旨在提升大語(yǔ)言模型(LLM)和多模態(tài)大語(yǔ)言模型(MLLM)的空間推理能力。
1. 思維鏈(CoT)的局限性和MVoT的提出
現(xiàn)有的思維鏈(CoT)方法在復(fù)雜空間推理方面表現(xiàn)不佳。人類能夠同時(shí)運(yùn)用語(yǔ)言和圖像進(jìn)行推理,MVoT正是受此啟發(fā),將CoT擴(kuò)展到多模態(tài)模型,通過結(jié)合文本和圖像信息進(jìn)行推理,并可視化推理過程。
2. MVoT的核心思想和技術(shù)細(xì)節(jié)
MVoT的核心思想是讓AI在推理過程中生成視覺圖像來(lái)輔助思考,將語(yǔ)言和視覺推理融合。具體而言,MVoT微調(diào)自回歸多模態(tài)大語(yǔ)言模型(MLLM),并引入token差異損失來(lái)彌補(bǔ)不同模態(tài)分詞器之間的差距,提升可視化質(zhì)量。MVoT在推理過程中生成交織的多模態(tài)思維(文本和圖像),最終生成答案。 該方法類似于人類的認(rèn)知方式,能夠在文本和圖像之間無(wú)縫切換。
3. 實(shí)驗(yàn)結(jié)果和性能提升
在三個(gè)動(dòng)態(tài)空間推理任務(wù)(MAZE,MINIBEHAVIOR,FROZENLAKE)中,MVoT展現(xiàn)出優(yōu)于傳統(tǒng)CoT的適應(yīng)性和穩(wěn)健性。尤其在難度最高的FROZENLAKE任務(wù)中,MVoT的表現(xiàn)比CoT高出20%以上。MVoT與CoT組合使用,能進(jìn)一步提升性能上限,在部分任務(wù)中接近100%的準(zhǔn)確率。
4. MVoT的可解釋性和可視化分析
MVoT生成的可視化圖像可以清晰地展現(xiàn)推理過程,提高了模型的可解釋性。研究人員還定義了自動(dòng)化評(píng)估指標(biāo)(可視化準(zhǔn)確率、冗余度、正確步驟等)來(lái)評(píng)估生成的視覺推理質(zhì)量。實(shí)驗(yàn)結(jié)果表明,token差異損失有效提高了可視化準(zhǔn)確性并減少了冗余。
5. 未來(lái)研究方向和局限性
MVoT的局限性在于推理過程中生成可視化會(huì)增加計(jì)算開銷。未來(lái)研究方向包括探索更緊湊的圖像表示,以及借鑒擴(kuò)散模型中的圖像生成技術(shù)來(lái)改進(jìn)MVoT。
6. 作者介紹
該研究的主要貢獻(xiàn)者來(lái)自微軟研究院和劍橋大學(xué),擁有深厚的AI和多模態(tài)學(xué)習(xí)背景。
總而言之,MVoT 作為一種新穎的多模態(tài)推理方法,通過結(jié)合文本和圖像信息,并可視化推理過程,有效提升了大模型的空間推理能力和可解釋性,為未來(lái)多模態(tài)模型的發(fā)展提供了新的方向。
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。