騰訊發(fā)布實(shí)體任務(wù)規(guī)劃基準(zhǔn)，GPT-4V也頻頻出錯(cuò)！邁向大模型與物理世界交互！

AIGC動(dòng)態(tài)1年前 (2023)發(fā)布夕小瑤科技說(shuō)

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：騰訊發(fā)布實(shí)體任務(wù)規(guī)劃基準(zhǔn)，GPT-4V也頻頻出錯(cuò)！邁向大模型與物理世界交互！
關(guān)鍵字：任務(wù),模型,目標(biāo),騰訊,視覺(jué)
文章來(lái)源：夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù)：8400字

內(nèi)容摘要：

夕小瑤科技說(shuō) 原創(chuàng)作者 | 智商掉了一地、Python多模態(tài)大型語(yǔ)言模型（MLLM）目前主要通過(guò)數(shù)字化的方式與信息世界進(jìn)行交互，涉及自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和多模態(tài)生成任務(wù)等領(lǐng)域。然而，將這些模型引入物理世界時(shí)，我們要求它們不僅能夠在虛擬環(huán)境中執(zhí)行任務(wù)，還要具備理解和參與現(xiàn)實(shí)生活場(chǎng)景的能力。從機(jī)器人執(zhí)行物理任務(wù)到語(yǔ)言模型在實(shí)際環(huán)境中規(guī)劃任務(wù)的能力，大型模型與物理世界的交互將為人工智能的發(fā)展開辟嶄新的篇章。
MLLM 能夠有效整合不同來(lái)源的信息，包括實(shí)時(shí)任務(wù)進(jìn)展、視覺(jué)觀察以及開放式語(yǔ)言指令等多樣化的上下文輸入。這種整合能力使模型能夠更全面地理解周圍環(huán)境，并且能夠根據(jù)任務(wù)目標(biāo)生成相應(yīng)路徑規(guī)劃。具體來(lái)說(shuō):
實(shí)時(shí)任務(wù)進(jìn)展：提供了關(guān)于任務(wù)當(dāng)前狀態(tài)的關(guān)鍵信息；
視覺(jué)觀察：使模型能夠感知環(huán)境中的物體、狀態(tài)變化和空間關(guān)系；
開放式語(yǔ)言指令：為模型提供了任務(wù)的高層描述和指導(dǎo)。
騰訊提出的 EgoPlan-Bench 通過(guò)考慮任務(wù)的高層目標(biāo)、當(dāng)前視覺(jué)觀察和語(yǔ)言指令，使模型能夠預(yù)測(cè)下一個(gè)可行的動(dòng)作。這種規(guī)劃能力讓模型仿佛具有自主思考和執(zhí)行任務(wù)的能力，能夠逐步執(zhí)行動(dòng)作。與傳統(tǒng)的自我中心視頻問(wèn)答基準(zhǔn)不同，Ego

原文鏈接：騰訊發(fā)布實(shí)體任務(wù)規(guī)劃基準(zhǔn)，GPT-4V也頻頻出錯(cuò)！邁向大模型與物理世界交互！

聯(lián)系作者

文章來(lái)源：夕小瑤科技說(shuō)
作者微信：xixiaoyaoQAQ
作者簡(jiǎn)介：更快的AI前沿，更深的行業(yè)洞見。聚集25萬(wàn)AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來(lái)自清北、國(guó)外頂級(jí)AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠，兼?zhèn)涿襟wsense與技術(shù)深度。

閱讀原文