馬毅LeCun謝賽寧曝出多模態(tài)LLM重大缺陷！開(kāi)創(chuàng)性研究顯著增強(qiáng)視覺(jué)理解能力

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布新智元

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：馬毅LeCun謝賽寧曝出多模態(tài)LLM重大缺陷！開(kāi)創(chuàng)性研究顯著增強(qiáng)視覺(jué)理解能力
關(guān)鍵字：視覺(jué),模型,特征,能力,研究人員
文章來(lái)源：新智元
內(nèi)容字?jǐn)?shù)：6949字

內(nèi)容摘要：

新智元報(bào)道編輯：潤(rùn) 好困
【新智元導(dǎo)讀】來(lái)自紐約大學(xué)和UC伯克利的研究團(tuán)隊(duì)成功捕捉到了多模態(tài)大模型在視覺(jué)理解方面存在的重大缺陷。針對(duì)這個(gè)問(wèn)題，他們進(jìn)一步提出了一個(gè)將DINOv2特征與CLIP特征結(jié)合的方法，有效地提升了多模態(tài)大模型的視覺(jué)功能。Sam Altman在各種場(chǎng)合都提到，大語(yǔ)言模型的多模態(tài)能力，是未來(lái)AI技術(shù)能夠造福人類(lèi)的最亟待突破的領(lǐng)域。
那么現(xiàn)在在多模態(tài)大模型的視覺(jué)功能能否達(dá)到與語(yǔ)言功能匹配的水平？
當(dāng)前多模態(tài)模型取得的進(jìn)步很大程度上歸功于大語(yǔ)言模型（LLM）的推理能力。但在視覺(jué)方面，模型往往只基于實(shí)例級(jí)別的對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練（CLIP）。
最近，來(lái)自紐約大學(xué)和UC伯克利的團(tuán)隊(duì)研究表明，多模態(tài)大語(yǔ)言模型（MLLM）在視覺(jué)處理方面仍存在普遍性的缺陷。
其中，團(tuán)隊(duì)成員堪稱(chēng)「豪華」，除了領(lǐng)隊(duì)謝賽寧外，共同參與還有馬毅和LeCun兩位大佬。
論文地址：https://arxiv.org/abs/2401.06209
開(kāi)源項(xiàng)目：https://github.com/tsb0601/MMVP
在一些特殊場(chǎng)景之下，很多MLLM對(duì)于圖像內(nèi)容識(shí)別能力甚至不如隨機(jī)瞎猜。
在很多人類(lèi)能夠輕易

原文鏈接：馬毅LeCun謝賽寧曝出多模態(tài)LLM重大缺陷！開(kāi)創(chuàng)性研究顯著增強(qiáng)視覺(jué)理解能力

聯(lián)系作者

文章來(lái)源：新智元
作者微信：AI_era
作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文