超越CoT！微軟劍橋中科院提出MVoT，直接可視化多模態(tài)推理過程

原標(biāo)題：超越CoT！微軟劍橋中科院提出MVoT，直接可視化多模態(tài)推理過程
文章來(lái)源：新智元
內(nèi)容字?jǐn)?shù)：6269字

微軟劍橋大學(xué)推出多模態(tài)思維可視化MVoT：大模型也擁有“空間想象力”

本文總結(jié)了微軟研究院、劍橋大學(xué)和中科院研究人員提出的多模態(tài)思維可視化(MVoT)方法，該方法旨在提升大語(yǔ)言模型(LLM)和多模態(tài)大語(yǔ)言模型(MLLM)的空間推理能力。

1. 思維鏈(CoT)的局限性和MVoT的提出

現(xiàn)有的思維鏈(CoT)方法在復(fù)雜空間推理方面表現(xiàn)不佳。人類能夠同時(shí)運(yùn)用語(yǔ)言和圖像進(jìn)行推理，MVoT正是受此啟發(fā)，將CoT擴(kuò)展到多模態(tài)模型，通過結(jié)合文本和圖像信息進(jìn)行推理，并可視化推理過程。

2. MVoT的核心思想和技術(shù)細(xì)節(jié)

MVoT的核心思想是讓AI在推理過程中生成視覺圖像來(lái)輔助思考，將語(yǔ)言和視覺推理融合。具體而言，MVoT微調(diào)自回歸多模態(tài)大語(yǔ)言模型(MLLM)，并引入token差異損失來(lái)彌補(bǔ)不同模態(tài)分詞器之間的差距，提升可視化質(zhì)量。MVoT在推理過程中生成交織的多模態(tài)思維（文本和圖像），最終生成答案。該方法類似于人類的認(rèn)知方式，能夠在文本和圖像之間無(wú)縫切換。

3. 實(shí)驗(yàn)結(jié)果和性能提升

在三個(gè)動(dòng)態(tài)空間推理任務(wù)(MAZE,MINIBEHAVIOR,FROZENLAKE)中，MVoT展現(xiàn)出優(yōu)于傳統(tǒng)CoT的適應(yīng)性和穩(wěn)健性。尤其在難度最高的FROZENLAKE任務(wù)中，MVoT的表現(xiàn)比CoT高出20%以上。MVoT與CoT組合使用，能進(jìn)一步提升性能上限，在部分任務(wù)中接近100%的準(zhǔn)確率。

4. MVoT的可解釋性和可視化分析

MVoT生成的可視化圖像可以清晰地展現(xiàn)推理過程，提高了模型的可解釋性。研究人員還定義了自動(dòng)化評(píng)估指標(biāo)（可視化準(zhǔn)確率、冗余度、正確步驟等）來(lái)評(píng)估生成的視覺推理質(zhì)量。實(shí)驗(yàn)結(jié)果表明，token差異損失有效提高了可視化準(zhǔn)確性并減少了冗余。

5. 未來(lái)研究方向和局限性

MVoT的局限性在于推理過程中生成可視化會(huì)增加計(jì)算開銷。未來(lái)研究方向包括探索更緊湊的圖像表示，以及借鑒擴(kuò)散模型中的圖像生成技術(shù)來(lái)改進(jìn)MVoT。

6. 作者介紹

該研究的主要貢獻(xiàn)者來(lái)自微軟研究院和劍橋大學(xué)，擁有深厚的AI和多模態(tài)學(xué)習(xí)背景。

總而言之，MVoT 作為一種新穎的多模態(tài)推理方法，通過結(jié)合文本和圖像信息，并可視化推理過程，有效提升了大模型的空間推理能力和可解釋性，為未來(lái)多模態(tài)模型的發(fā)展提供了新的方向。

聯(lián)系作者

文章來(lái)源：新智元
作者微信：
作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文

# AIGC動(dòng)態(tài)# MVoT # 中科院 # 多模態(tài)推理可視化 # 微軟劍橋 # 超越CoT

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

超越CoT！微軟劍橋中科院提出MVoT，直接可視化多模態(tài)推理過程

微軟劍橋大學(xué)推出多模態(tài)思維可視化MVoT：大模型也擁有“空間想象力”

1. 思維鏈(CoT)的局限性和MVoT的提出

2. MVoT的核心思想和技術(shù)細(xì)節(jié)

3. 實(shí)驗(yàn)結(jié)果和性能提升

4. MVoT的可解釋性和可視化分析

5. 未來(lái)研究方向和局限性

6. 作者介紹

聯(lián)系作者

房?jī)r(jià)預(yù)測(cè)/礦藏勘探/自然災(zāi)害預(yù)測(cè)……AI助力地球科學(xué)革新，浙大/清華/Google Research等已發(fā)表重要成果

體驗(yàn)蘋果新應(yīng)用兩天后，我開始期待微信「抄作業(yè)」

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

玩虛擬模特？