MM 2024 Oral: 大模型帶你鑒賞世界名畫！同濟大學發布

AIGC動態1年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：MM 2024 Oral: 大模型帶你鑒賞世界名畫！同濟大學發布
關鍵字：畫作,模型,能力,藝術,數據
文章來源：夕小瑤科技說
內容字數：0字

內容摘要：

夕小瑤科技說原創作者 | 謝年年現有的大模型已經能夠創作令人驚嘆畫作，那鑒賞藝術畫作豈不是信手拈來？
但同濟大學的研究團隊卻發現——并非如此。
他們發現這些大模型雖然對熟知的知名畫作分析得頭頭是道，但一遇到較為冷門的畫作就容易產生“視覺幻覺”，造成諸如張冠李戴的錯誤。
比如給大模型看梵高的《向日葵》，它能從畫面布局、色彩搭配到筆觸技巧等各個方面給出詳盡的分析，相當準確：
然而，一換到那些不太出名的畫作前，即便是像Gemini和GPT-4V這樣強大的模型也會犯迷糊。（圖中紅色表示錯誤分析）
作者認為現有的大模型在分析畫作時，往往傾向于首先識別給定的畫作，然后相應地進行分析。簡單來說，他們是先認出了這副畫，然后再從記憶中調取關于這幅畫的知識。這僅限于照本宣科，還不是真正意義上的具備鑒賞能力。
這種“識別再分析”的過程高度依賴于識別的準確性，一旦遇到不認識的畫作，就容易出錯，產生“視覺上的錯覺”。
而作者更希望賦予大模型formal analysis（形式分析）的能力，主要關注作品的形式元素，如線條、色彩、構圖等，以及它們在作品中的組合和表現方式。
因此作者首先構建一個包含近19K畫作和

原文鏈接：MM 2024 Oral: 大模型帶你鑒賞世界名畫！同濟大學發布