揭秘AI幻覺:GPT-4V存在視覺編碼漏洞,清華聯(lián)合NUS提出LLaVA-UHD
AIGC動態(tài)歡迎閱讀
原標(biāo)題:揭秘AI幻覺:GPT-4V存在視覺編碼漏洞,清華聯(lián)合NUS提出LLaVA-UHD
關(guān)鍵字:圖像,報告,切片,分辨率,模型
文章來源:機器之心
內(nèi)容字?jǐn)?shù):6364字
內(nèi)容摘要:
機器之心專欄
機器之心編輯部GPT-4V 的推出引爆了多模態(tài)大模型的研究。GPT-4V 在包括多模態(tài)問答、推理、交互在內(nèi)的多個領(lǐng)域都展現(xiàn)了出色的能力,成為如今最領(lǐng)先的多模態(tài)大模型。
然而,近期很多工作發(fā)現(xiàn) GPT-4V 在很多基本能力上卻意外的出現(xiàn)短板。例如,在微軟一篇長達(dá) 166 頁的技術(shù)報告《The Dawn of LMMs:Preliminary Explorations with GPT-4V (ision)》中,作者發(fā)現(xiàn),對于一個不太復(fù)雜的圖像中的蘋果數(shù)量,GPT-4V 竟然怎么數(shù)也數(shù)不對。然而,學(xué)術(shù)界和工業(yè)界尚不清楚導(dǎo)致這些問題的底層原因。
這個問題在清華大學(xué)、新加坡國立大學(xué)和中國科學(xué)院大學(xué)的一篇題為《LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images》的論文中得到了解釋。論文鏈接:https://arxiv.org/pdf/2403.11703.pdf
項目鏈接:github.com/thunlp/LLaVA-UHD
其原因在于 GPT-4V 很可能存在:視覺編碼漏洞。
該工作對
原文鏈接:揭秘AI幻覺:GPT-4V存在視覺編碼漏洞,清華聯(lián)合NUS提出LLaVA-UHD
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺