14 項(xiàng)任務(wù)測(cè)下來,GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力?
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:14 項(xiàng)任務(wù)測(cè)下來,GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力?
關(guān)鍵字:騰訊,解讀,視覺,模型,任務(wù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5437字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 為代表的多模態(tài)大模型(Multimodal LLMs)已經(jīng)在文本和圖像等多模態(tài)內(nèi)容處理方面表現(xiàn)出了空前的能力,成為技術(shù)新浪潮。
然而,對(duì)于這些模型的評(píng)測(cè)多集中于語(yǔ)言上的任務(wù),對(duì)于視覺的要求多為簡(jiǎn)單的物體識(shí)別。相對(duì)的,計(jì)算機(jī)視覺最初試圖解讀圖像作為3D場(chǎng)景的投影,而不僅僅處理2D平面“模式”的數(shù)組。
為響應(yīng)這一情況,本文提出了BLINK,這是一個(gè)新的測(cè)試集,包含了重新構(gòu)想的傳統(tǒng)計(jì)算機(jī)視覺問題,使我們能夠更全面評(píng)估多模態(tài)大模型的視覺感知能力,帶你揭開GPT4V、Gemini等大模型的視覺界限秘密。
作者相信BLINK將激勵(lì)社區(qū)幫助多模態(tài)LLMs達(dá)到與人類同等級(jí)別的視覺感知能力。論文鏈接
原文鏈接:14 項(xiàng)任務(wù)測(cè)下來,GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力?
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)