14 項(xiàng)任務(wù)測(cè)下來，GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力？

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：14 項(xiàng)任務(wù)測(cè)下來，GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力？
關(guān)鍵字：騰訊,解讀,視覺,模型,任務(wù)
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：5437字

內(nèi)容摘要：

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com2023-2024年，以 GPT-4V、Gemini、Claude、LLaVA 為代表的多模態(tài)大模型（Multimodal LLMs）已經(jīng)在文本和圖像等多模態(tài)內(nèi)容處理方面表現(xiàn)出了空前的能力，成為技術(shù)新浪潮。
然而，對(duì)于這些模型的評(píng)測(cè)多集中于語(yǔ)言上的任務(wù)，對(duì)于視覺的要求多為簡(jiǎn)單的物體識(shí)別。相對(duì)的，計(jì)算機(jī)視覺最初試圖解讀圖像作為3D場(chǎng)景的投影，而不僅僅處理2D平面“模式”的數(shù)組。
為響應(yīng)這一情況，本文提出了BLINK，這是一個(gè)新的測(cè)試集，包含了重新構(gòu)想的傳統(tǒng)計(jì)算機(jī)視覺問題，使我們能夠更全面評(píng)估多模態(tài)大模型的視覺感知能力，帶你揭開GPT4V、Gemini等大模型的視覺界限秘密。
作者相信BLINK將激勵(lì)社區(qū)幫助多模態(tài)LLMs達(dá)到與人類同等級(jí)別的視覺感知能力。論文鏈接

原文鏈接：14 項(xiàng)任務(wù)測(cè)下來，GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力？