EyEar的表現比目前最好的基線模型高出15%。
原標題:當AI遇上心理學:如何讓AI的眼神更像人?|AAAI 2025
文章來源:AI科技評論
內容字數:4916字
EyEar:模擬人類視聽同步注視軌跡的AI技術
本文介紹了中國人民大學高瓴人工智能學院宋睿華團隊研發的一項名為EyEar的創新技術,該技術能夠預測人類在聽聲音的同時觀看圖像時的注視軌跡,并在AAAI 2025被接收為口頭報告。這項技術基于一個物理啟發的動力系統,模擬了人類眼球的機制,并考慮了視覺顯著性、音頻語義以及眼球固有趨勢等因素。
1. 任務與挑戰
EyEar旨在解決一個全新的任務:Audio Synchronized Viewing,即預測人類在聽到音頻信號的同時,在圖像中的注視軌跡。該任務的挑戰在于:人類注視軌跡具有高度個體差異性,且受視覺和聽覺信息的共同影響,現有技術難以準確預測。
2. EyEar模型
EyEar模型的核心是一個基于物理啟發的動力系統,將眼球視為一個彈簧系統。該系統考慮了三個關鍵因素:
- 固有趨勢:模擬眼球的自然習慣。
- 視覺顯著吸引力:利用DeepGaze IIE模型預測圖像中的顯著區域。
- 音頻語義吸引力:通過圖像分支、音頻轉錄分支和多模態注意力機制,預測音頻語義對應的圖像區域。
模型通過學習這三個因素的權重,最終預測注視軌跡。為了克服注視軌跡的高度個體差異性,EyEar采用了一種基于概率密度的評分方法(PDS),提高了模型的穩定性和評估的可靠性。
3. 數據集與實驗結果
研究團隊收集了一個包含20,000個注視點的數據集,用于訓練和評估EyEar模型。實驗結果表明,EyEar在所有評估指標上均顯著優于多個基線模型,尤其在PDS指標上,其表現比最好的基線模型高出15%。EyEar能夠準確預測注視軌跡,并模擬人類眼動的自然模式,特別是在音頻語義的引導下。
4. 未來展望
未來,研究團隊計劃將EyEar擴展到視頻場景,并探索更多樣化的聽覺信息對注視行為的影響,以進一步提升模型的魯棒性和泛化能力,為構建更逼真和自然的虛擬角色奠定基礎。
聯系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...