MM 2024 Oral: 大模型帶你鑒賞世界名畫!同濟(jì)大學(xué)發(fā)布
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:MM 2024 Oral: 大模型帶你鑒賞世界名畫!同濟(jì)大學(xué)發(fā)布
關(guān)鍵字:畫作,模型,能力,藝術(shù),數(shù)據(jù)
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 謝年年現(xiàn)有的大模型已經(jīng)能夠創(chuàng)作令人驚嘆畫作,那鑒賞藝術(shù)畫作豈不是信手拈來?
但同濟(jì)大學(xué)的研究團(tuán)隊(duì)卻發(fā)現(xiàn)——并非如此。
他們發(fā)現(xiàn)這些大模型雖然對(duì)熟知的知名畫作分析得頭頭是道,但一遇到較為冷門的畫作就容易產(chǎn)生“視覺幻覺”,造成諸如張冠李戴的錯(cuò)誤。
比如給大模型看梵高的《向日葵》,它能從畫面布局、色彩搭配到筆觸技巧等各個(gè)方面給出詳盡的分析,相當(dāng)準(zhǔn)確:
然而,一換到那些不太出名的畫作前,即便是像Gemini和GPT-4V這樣強(qiáng)大的模型也會(huì)犯迷糊。(圖中紅色表示錯(cuò)誤分析)
作者認(rèn)為現(xiàn)有的大模型在分析畫作時(shí),往往傾向于首先識(shí)別給定的畫作,然后相應(yīng)地進(jìn)行分析。簡(jiǎn)單來說,他們是先認(rèn)出了這副畫,然后再?gòu)挠洃浿姓{(diào)取關(guān)于這幅畫的知識(shí)。這僅限于照本宣科,還不是真正意義上的具備鑒賞能力。
這種“識(shí)別再分析”的過程高度依賴于識(shí)別的準(zhǔn)確性,一旦遇到不認(rèn)識(shí)的畫作,就容易出錯(cuò),產(chǎn)生“視覺上的錯(cuò)覺”。
而作者更希望賦予大模型formal analysis(形式分析) 的能力,主要關(guān)注作品的形式元素,如線條、色彩、構(gòu)圖等,以及它們?cè)谧髌分械慕M合和表現(xiàn)方式。
因此作者首先構(gòu)建一個(gè)包含近19K畫作和
原文鏈接:MM 2024 Oral: 大模型帶你鑒賞世界名畫!同濟(jì)大學(xué)發(fā)布
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡(jiǎn)介: