當(dāng)AI遇上心理學(xué):如何讓AI的眼神更像人?|AAAI 2025
EyEar的表現(xiàn)比目前最好的基線模型高出15%。
原標(biāo)題:當(dāng)AI遇上心理學(xué):如何讓AI的眼神更像人?|AAAI 2025
文章來源:AI科技評論
內(nèi)容字?jǐn)?shù):4916字
EyEar:模擬人類視聽同步注視軌跡的AI技術(shù)
本文介紹了中國人民大學(xué)高瓴人工智能學(xué)院宋睿華團(tuán)隊(duì)研發(fā)的一項(xiàng)名為EyEar的創(chuàng)新技術(shù),該技術(shù)能夠預(yù)測人類在聽聲音的同時(shí)觀看圖像時(shí)的注視軌跡,并在AAAI 2025被接收為口頭報(bào)告。這項(xiàng)技術(shù)基于一個(gè)物理啟發(fā)的動(dòng)力系統(tǒng),模擬了人類眼球的機(jī)制,并考慮了視覺顯著性、音頻語義以及眼球固有趨勢等因素。
1. 任務(wù)與挑戰(zhàn)
EyEar旨在解決一個(gè)全新的任務(wù):Audio Synchronized Viewing,即預(yù)測人類在聽到音頻信號的同時(shí),在圖像中的注視軌跡。該任務(wù)的挑戰(zhàn)在于:人類注視軌跡具有高度個(gè)體差異性,且受視覺和聽覺信息的共同影響,現(xiàn)有技術(shù)難以準(zhǔn)確預(yù)測。
2. EyEar模型
EyEar模型的核心是一個(gè)基于物理啟發(fā)的動(dòng)力系統(tǒng),將眼球視為一個(gè)彈簧系統(tǒng)。該系統(tǒng)考慮了三個(gè)關(guān)鍵因素:
- 固有趨勢:模擬眼球的自然習(xí)慣。
- 視覺顯著吸引力:利用DeepGaze IIE模型預(yù)測圖像中的顯著區(qū)域。
- 音頻語義吸引力:通過圖像分支、音頻轉(zhuǎn)錄分支和多模態(tài)注意力機(jī)制,預(yù)測音頻語義對應(yīng)的圖像區(qū)域。
模型通過學(xué)習(xí)這三個(gè)因素的權(quán)重,最終預(yù)測注視軌跡。為了克服注視軌跡的高度個(gè)體差異性,EyEar采用了一種基于概率密度的評分方法(PDS),提高了模型的穩(wěn)定性和評估的可靠性。
3. 數(shù)據(jù)集與實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)收集了一個(gè)包含20,000個(gè)注視點(diǎn)的數(shù)據(jù)集,用于訓(xùn)練和評估EyEar模型。實(shí)驗(yàn)結(jié)果表明,EyEar在所有評估指標(biāo)上均顯著優(yōu)于多個(gè)基線模型,尤其在PDS指標(biāo)上,其表現(xiàn)比最好的基線模型高出15%。EyEar能夠準(zhǔn)確預(yù)測注視軌跡,并模擬人類眼動(dòng)的自然模式,特別是在音頻語義的引導(dǎo)下。
4. 未來展望
未來,研究團(tuán)隊(duì)計(jì)劃將EyEar擴(kuò)展到視頻場景,并探索更多樣化的聽覺信息對注視行為的影響,以進(jìn)一步提升模型的魯棒性和泛化能力,為構(gòu)建更逼真和自然的虛擬角色奠定基礎(chǔ)。
聯(lián)系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。