揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯(lián)合NUS提出LLaVA-UHD

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯(lián)合NUS提出LLaVA-UHD
關(guān)鍵字：圖像,報(bào)告,切片,分辨率,模型
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：6364字

內(nèi)容摘要：

機(jī)器之心專欄
機(jī)器之心編輯部GPT-4V 的推出引爆了多模態(tài)大模型的研究。GPT-4V 在包括多模態(tài)問答、推理、交互在內(nèi)的多個(gè)領(lǐng)域都展現(xiàn)了出色的能力，成為如今最領(lǐng)先的多模態(tài)大模型。
然而，近期很多工作發(fā)現(xiàn) GPT-4V 在很多基本能力上卻意外的出現(xiàn)短板。例如，在微軟一篇長(zhǎng)達(dá) 166 頁的技術(shù)報(bào)告《The Dawn of LMMs:Preliminary Explorations with GPT-4V (ision)》中，作者發(fā)現(xiàn)，對(duì)于一個(gè)不太復(fù)雜的圖像中的蘋果數(shù)量，GPT-4V 竟然怎么數(shù)也數(shù)不對(duì)。然而，學(xué)術(shù)界和工業(yè)界尚不清楚導(dǎo)致這些問題的底層原因。
這個(gè)問題在清華大學(xué)、新加坡國立大學(xué)和中國科學(xué)院大學(xué)的一篇題為《LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images》的論文中得到了解釋。論文鏈接：https://arxiv.org/pdf/2403.11703.pdf
項(xiàng)目鏈接：github.com/thunlp/LLaVA-UHD
其原因在于 GPT-4V 很可能存在：視覺編碼漏洞。
該工作對(duì)

原文鏈接：揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯(lián)合NUS提出LLaVA-UHD