揭秘AI幻覺(jué):GPT-4V存在視覺(jué)編碼漏洞,清華聯(lián)合NUS提出LLaVA-UHD
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:揭秘AI幻覺(jué):GPT-4V存在視覺(jué)編碼漏洞,清華聯(lián)合NUS提出LLaVA-UHD
關(guān)鍵字:圖像,報(bào)告,切片,分辨率,模型
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6364字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部GPT-4V 的推出引爆了多模態(tài)大模型的研究。GPT-4V 在包括多模態(tài)問(wèn)答、推理、交互在內(nèi)的多個(gè)領(lǐng)域都展現(xiàn)了出色的能力,成為如今最領(lǐng)先的多模態(tài)大模型。
然而,近期很多工作發(fā)現(xiàn) GPT-4V 在很多基本能力上卻意外的出現(xiàn)短板。例如,在微軟一篇長(zhǎng)達(dá) 166 頁(yè)的技術(shù)報(bào)告《The Dawn of LMMs:Preliminary Explorations with GPT-4V (ision)》中,作者發(fā)現(xiàn),對(duì)于一個(gè)不太復(fù)雜的圖像中的蘋果數(shù)量,GPT-4V 竟然怎么數(shù)也數(shù)不對(duì)。然而,學(xué)術(shù)界和工業(yè)界尚不清楚導(dǎo)致這些問(wèn)題的底層原因。
這個(gè)問(wèn)題在清華大學(xué)、新加坡國(guó)立大學(xué)和中國(guó)科學(xué)院大學(xué)的一篇題為《LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images》的論文中得到了解釋。論文鏈接:https://arxiv.org/pdf/2403.11703.pdf
項(xiàng)目鏈接:github.com/thunlp/LLaVA-UHD
其原因在于 GPT-4V 很可能存在:視覺(jué)編碼漏洞。
該工作對(duì)
原文鏈接:揭秘AI幻覺(jué):GPT-4V存在視覺(jué)編碼漏洞,清華聯(lián)合NUS提出LLaVA-UHD
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)