騰訊發(fā)布實(shí)體任務(wù)規(guī)劃基準(zhǔn),GPT-4V也頻頻出錯(cuò)!邁向大模型與物理世界交互!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:騰訊發(fā)布實(shí)體任務(wù)規(guī)劃基準(zhǔn),GPT-4V也頻頻出錯(cuò)!邁向大模型與物理世界交互!
關(guān)鍵字:任務(wù),模型,目標(biāo),騰訊,視覺(jué)
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):8400字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 智商掉了一地、Python多模態(tài)大型語(yǔ)言模型(MLLM)目前主要通過(guò)數(shù)字化的方式與信息世界進(jìn)行交互,涉及自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和多模態(tài)生成任務(wù)等領(lǐng)域。然而,將這些模型引入物理世界時(shí),我們要求它們不僅能夠在虛擬環(huán)境中執(zhí)行任務(wù),還要具備理解和參與現(xiàn)實(shí)生活場(chǎng)景的能力。從機(jī)器人執(zhí)行物理任務(wù)到語(yǔ)言模型在實(shí)際環(huán)境中規(guī)劃任務(wù)的能力,大型模型與物理世界的交互將為人工智能的發(fā)展開辟嶄新的篇章。
MLLM 能夠有效整合不同來(lái)源的信息,包括實(shí)時(shí)任務(wù)進(jìn)展、視覺(jué)觀察以及開放式語(yǔ)言指令等多樣化的上下文輸入。這種整合能力使模型能夠更全面地理解周圍環(huán)境,并且能夠根據(jù)任務(wù)目標(biāo)生成相應(yīng)路徑規(guī)劃。具體來(lái)說(shuō):
實(shí)時(shí)任務(wù)進(jìn)展:提供了關(guān)于任務(wù)當(dāng)前狀態(tài)的關(guān)鍵信息;
視覺(jué)觀察:使模型能夠感知環(huán)境中的物體、狀態(tài)變化和空間關(guān)系;
開放式語(yǔ)言指令:為模型提供了任務(wù)的高層描述和指導(dǎo)。
騰訊提出的 EgoPlan-Bench 通過(guò)考慮任務(wù)的高層目標(biāo)、當(dāng)前視覺(jué)觀察和語(yǔ)言指令,使模型能夠預(yù)測(cè)下一個(gè)可行的動(dòng)作。這種規(guī)劃能力讓模型仿佛具有自主思考和執(zhí)行任務(wù)的能力,能夠逐步執(zhí)行動(dòng)作。與傳統(tǒng)的自我中心視頻問(wèn)答基準(zhǔn)不同,Ego
原文鏈接:騰訊發(fā)布實(shí)體任務(wù)規(guī)劃基準(zhǔn),GPT-4V也頻頻出錯(cuò)!邁向大模型與物理世界交互!
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬(wàn)AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來(lái)自清北、國(guó)外頂級(jí)AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。