GPT-4V都搞不明白的未來(lái)推理有解法了!來(lái)自華科大&上科大
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:GPT-4V都搞不明白的未來(lái)推理有解法了!來(lái)自華科大&上科大
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):8005字
內(nèi)容摘要:于恩 投稿量子位 | 公眾號(hào) QbitAI多模態(tài)大語(yǔ)言模型展現(xiàn)了強(qiáng)大的圖像理解和推理能力。但要讓它們基于當(dāng)前觀測(cè)來(lái)對(duì)未來(lái)進(jìn)行預(yù)測(cè)推理仍然非常困難。即便是當(dāng)前最強(qiáng)大的GPT-4V(如下圖所示),也無(wú)法很好地解決這一問(wèn)題。△ GPT-4V的錯(cuò)誤案例現(xiàn)在,華科大和上科大團(tuán)隊(duì)提出了一個(gè)賦予多模態(tài)大語(yǔ)言模型前瞻性思維的學(xué)習(xí)范式,并基于這一范式構(gòu)建了多模態(tài)大語(yǔ)言模型Merlin(梅林)。Merlin(梅林)是亞瑟王傳說(shuō)中的一個(gè)傳奇人物,以其強(qiáng)大的魔法和智慧而聞名于亞瑟王傳說(shuō)。傳說(shuō)中梅林擁有預(yù)見(jiàn)未來(lái)的能力,并對(duì)命運(yùn)有著深刻的理解。來(lái)看看它具體是如何做的?注:人類(lèi)可以根據(jù)當(dāng)前觀測(cè)狀態(tài)來(lái)推理出即將或者接下來(lái)一段時(shí)間可能會(huì)發(fā)生的,我們將這一能力稱(chēng)為前瞻性思維。一個(gè)簡(jiǎn)單的例子:當(dāng)你在電視上觀看NBA球賽時(shí),你可以根據(jù)場(chǎng)上不同球員的狀態(tài)來(lái)判斷接下來(lái)可能會(huì)出現(xiàn)的場(chǎng)景。比如當(dāng)一名進(jìn)攻球員在持球突破防守人之后,…
原文鏈接:點(diǎn)此閱讀原文:GPT-4V都搞不明白的未來(lái)推理有解法了!來(lái)自華科大&上科大
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破