MM 2024 Oral: 大模型帶你鑒賞世界名畫!同濟大學發(fā)布
AIGC動態(tài)歡迎閱讀
原標題:MM 2024 Oral: 大模型帶你鑒賞世界名畫!同濟大學發(fā)布
關(guān)鍵字:畫作,模型,能力,藝術(shù),數(shù)據(jù)
文章來源:夕小瑤科技說
內(nèi)容字數(shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 謝年年現(xiàn)有的大模型已經(jīng)能夠創(chuàng)作令人驚嘆畫作,那鑒賞藝術(shù)畫作豈不是信手拈來?
但同濟大學的研究團隊卻發(fā)現(xiàn)——并非如此。
他們發(fā)現(xiàn)這些大模型雖然對熟知的知名畫作分析得頭頭是道,但一遇到較為冷門的畫作就容易產(chǎn)生“視覺幻覺”,造成諸如張冠李戴的錯誤。
比如給大模型看梵高的《向日葵》,它能從畫面布局、色彩搭配到筆觸技巧等各個方面給出詳盡的分析,相當準確:
然而,一換到那些不太出名的畫作前,即便是像Gemini和GPT-4V這樣強大的模型也會犯迷糊。(圖中紅色表示錯誤分析)
作者認為現(xiàn)有的大模型在分析畫作時,往往傾向于首先識別給定的畫作,然后相應(yīng)地進行分析。簡單來說,他們是先認出了這副畫,然后再從記憶中調(diào)取關(guān)于這幅畫的知識。這僅限于照本宣科,還不是真正意義上的具備鑒賞能力。
這種“識別再分析”的過程高度依賴于識別的準確性,一旦遇到不認識的畫作,就容易出錯,產(chǎn)生“視覺上的錯覺”。
而作者更希望賦予大模型formal analysis(形式分析) 的能力,主要關(guān)注作品的形式元素,如線條、色彩、構(gòu)圖等,以及它們在作品中的組合和表現(xiàn)方式。
因此作者首先構(gòu)建一個包含近19K畫作和
原文鏈接:MM 2024 Oral: 大模型帶你鑒賞世界名畫!同濟大學發(fā)布
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介: