馬毅LeCun謝賽寧曝出多模態(tài)LLM重大缺陷!開(kāi)創(chuàng)性研究顯著增強(qiáng)視覺(jué)理解能力
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:馬毅LeCun謝賽寧曝出多模態(tài)LLM重大缺陷!開(kāi)創(chuàng)性研究顯著增強(qiáng)視覺(jué)理解能力
關(guān)鍵字:視覺(jué),模型,特征,能力,研究人員
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):6949字
內(nèi)容摘要:
新智元報(bào)道編輯:潤(rùn) 好困
【新智元導(dǎo)讀】來(lái)自紐約大學(xué)和UC伯克利的研究團(tuán)隊(duì)成功捕捉到了多模態(tài)大模型在視覺(jué)理解方面存在的重大缺陷。針對(duì)這個(gè)問(wèn)題,他們進(jìn)一步提出了一個(gè)將DINOv2特征與CLIP特征結(jié)合的方法,有效地提升了多模態(tài)大模型的視覺(jué)功能。Sam Altman在各種場(chǎng)合都提到,大語(yǔ)言模型的多模態(tài)能力,是未來(lái)AI技術(shù)能夠造福人類(lèi)的最亟待突破的領(lǐng)域。
那么現(xiàn)在在多模態(tài)大模型的視覺(jué)功能能否達(dá)到與語(yǔ)言功能匹配的水平?
當(dāng)前多模態(tài)模型取得的進(jìn)步很大程度上歸功于大語(yǔ)言模型(LLM)的推理能力。但在視覺(jué)方面,模型往往只基于實(shí)例級(jí)別的對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練(CLIP)。
最近,來(lái)自紐約大學(xué)和UC伯克利的團(tuán)隊(duì)研究表明,多模態(tài)大語(yǔ)言模型(MLLM)在視覺(jué)處理方面仍存在普遍性的缺陷。
其中,團(tuán)隊(duì)成員堪稱(chēng)「豪華」,除了領(lǐng)隊(duì)謝賽寧外,共同參與還有馬毅和LeCun兩位大佬。
論文地址:https://arxiv.org/abs/2401.06209
開(kāi)源項(xiàng)目:https://github.com/tsb0601/MMVP
在一些特殊場(chǎng)景之下,很多MLLM對(duì)于圖像內(nèi)容識(shí)別能力甚至不如隨機(jī)瞎猜。
在很多人類(lèi)能夠輕易
原文鏈接:馬毅LeCun謝賽寧曝出多模態(tài)LLM重大缺陷!開(kāi)創(chuàng)性研究顯著增強(qiáng)視覺(jué)理解能力
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。