<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        超越CoT!微軟劍橋中科院提出MVoT,直接可視化多模態(tài)推理過程

        AIGC動(dòng)態(tài)7個(gè)月前發(fā)布 新智元
        325 0 0

        超越CoT!微軟劍橋中科院提出MVoT,直接可視化多模態(tài)推理過程

        原標(biāo)題:超越CoT微軟劍橋中科院提出MVoT,直接可視化多模態(tài)推理過程
        文章來(lái)源:新智元
        內(nèi)容字?jǐn)?shù):6269字

        微軟劍橋大學(xué)推出多模態(tài)思維可視化MVoT:大模型也擁有“空間想象力”

        本文總結(jié)了微軟研究院、劍橋大學(xué)和中科院研究人員提出的多模態(tài)思維可視化(MVoT)方法,該方法旨在提升大語(yǔ)言模型(LLM)和多模態(tài)大語(yǔ)言模型(MLLM)的空間推理能力。

        1. 思維鏈(CoT)的局限性和MVoT的提出

        現(xiàn)有的思維鏈(CoT)方法在復(fù)雜空間推理方面表現(xiàn)不佳。人類能夠同時(shí)運(yùn)用語(yǔ)言和圖像進(jìn)行推理,MVoT正是受此啟發(fā),將CoT擴(kuò)展到多模態(tài)模型,通過結(jié)合文本和圖像信息進(jìn)行推理,并可視化推理過程。

        2. MVoT的核心思想和技術(shù)細(xì)節(jié)

        MVoT的核心思想是讓AI在推理過程中生成視覺圖像來(lái)輔助思考,將語(yǔ)言和視覺推理融合。具體而言,MVoT微調(diào)自回歸多模態(tài)大語(yǔ)言模型(MLLM),并引入token差異損失來(lái)彌補(bǔ)不同模態(tài)分詞器之間的差距,提升可視化質(zhì)量。MVoT在推理過程中生成交織的多模態(tài)思維(文本和圖像),最終生成答案。 該方法類似于人類的認(rèn)知方式,能夠在文本和圖像之間無(wú)縫切換。

        3. 實(shí)驗(yàn)結(jié)果和性能提升

        在三個(gè)動(dòng)態(tài)空間推理任務(wù)(MAZE,MINIBEHAVIOR,FROZENLAKE)中,MVoT展現(xiàn)出優(yōu)于傳統(tǒng)CoT的適應(yīng)性和穩(wěn)健性。尤其在難度最高的FROZENLAKE任務(wù)中,MVoT的表現(xiàn)比CoT高出20%以上。MVoT與CoT組合使用,能進(jìn)一步提升性能上限,在部分任務(wù)中接近100%的準(zhǔn)確率。

        4. MVoT的可解釋性和可視化分析

        MVoT生成的可視化圖像可以清晰地展現(xiàn)推理過程,提高了模型的可解釋性。研究人員還定義了自動(dòng)化評(píng)估指標(biāo)(可視化準(zhǔn)確率、冗余度、正確步驟等)來(lái)評(píng)估生成的視覺推理質(zhì)量。實(shí)驗(yàn)結(jié)果表明,token差異損失有效提高了可視化準(zhǔn)確性并減少了冗余。

        5. 未來(lái)研究方向和局限性

        MVoT的局限性在于推理過程中生成可視化會(huì)增加計(jì)算開銷。未來(lái)研究方向包括探索更緊湊的圖像表示,以及借鑒擴(kuò)散模型中的圖像生成技術(shù)來(lái)改進(jìn)MVoT。

        6. 作者介紹

        該研究的主要貢獻(xiàn)者來(lái)自微軟研究院和劍橋大學(xué),擁有深厚的AI和多模態(tài)學(xué)習(xí)背景。

        總而言之,MVoT 作為一種新穎的多模態(tài)推理方法,通過結(jié)合文本和圖像信息,并可視化推理過程,有效提升了大模型的空間推理能力和可解釋性,為未來(lái)多模態(tài)模型的發(fā)展提供了新的方向。


        聯(lián)系作者

        文章來(lái)源:新智元
        作者微信:
        作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 一级做a爰黑人又硬又粗免费看51社区国产精品视 | 亚洲免费黄色网址| 最近2019免费中文字幕视频三| 亚洲国产精品福利片在线观看| 国产黄在线播放免费观看| 国产亚洲老熟女视频| a毛片免费全部播放完整成| 亚洲一区二区三区无码中文字幕| 国产视频精品免费视频| 国产亚洲综合一区柠檬导航| 美女视频黄的免费视频网页| 亚洲小视频在线观看| 日韩不卡免费视频| 亚洲国产综合AV在线观看| 国产美女精品久久久久久久免费| 小说区亚洲自拍另类| 亚洲乱码日产精品a级毛片久久| 成av免费大片黄在线观看| 亚洲成AV人片一区二区| 18禁美女黄网站色大片免费观看 | 中文字幕免费播放| 无码专区—VA亚洲V天堂| 四虎免费影院ww4164h| 亚洲中文字幕久久无码| 亚洲 小说区 图片区 都市| 国产午夜无码片免费| 亚洲国产理论片在线播放| 浮力影院第一页小视频国产在线观看免费| 亚洲AV无码一区二区大桥未久| 亚洲Av无码乱码在线znlu| 美女视频黄a视频全免费网站色窝 美女被cao网站免费看在线看 | 午夜精品免费在线观看 | 亚洲国产精品无码久久久蜜芽| 国产精品成人观看视频免费| 国产亚洲精品国产福利在线观看| 亚洲人成色77777| 最近的中文字幕大全免费版| 一个人看的免费高清视频日本| 亚洲最大的成网4438| 成人影片麻豆国产影片免费观看| 成年网在线观看免费观看网址|