當AI遇上心理學：如何讓AI的眼神更像人？｜AAAI 2025

EyEar的表現比目前最好的基線模型高出15%。

原標題：當AI遇上心理學：如何讓AI的眼神更像人？｜AAAI 2025
文章來源：AI科技評論
內容字數：4916字

本文介紹了中國人民大學高瓴人工智能學院宋睿華團隊研發的一項名為EyEar的創新技術，該技術能夠預測人類在聽聲音的同時觀看圖像時的注視軌跡，并在AAAI 2025被接收為口頭報告。這項技術基于一個物理啟發的動力系統，模擬了人類眼球的機制，并考慮了視覺顯著性、音頻語義以及眼球固有趨勢等因素。

EyEar旨在解決一個全新的任務：Audio Synchronized Viewing，即預測人類在聽到音頻信號的同時，在圖像中的注視軌跡。該任務的挑戰在于：人類注視軌跡具有高度個體差異性，且受視覺和聽覺信息的共同影響，現有技術難以準確預測。

EyEar模型的核心是一個基于物理啟發的動力系統，將眼球視為一個彈簧系統。該系統考慮了三個關鍵因素：

模型通過學習這三個因素的權重，最終預測注視軌跡。為了克服注視軌跡的高度個體差異性，EyEar采用了一種基于概率密度的評分方法（PDS），提高了模型的穩定性和評估的可靠性。

研究團隊收集了一個包含20,000個注視點的數據集，用于訓練和評估EyEar模型。實驗結果表明，EyEar在所有評估指標上均顯著優于多個基線模型，尤其在PDS指標上，其表現比最好的基線模型高出15%。EyEar能夠準確預測注視軌跡，并模擬人類眼動的自然模式，特別是在音頻語義的引導下。

未來，研究團隊計劃將EyEar擴展到視頻場景，并探索更多樣化的聽覺信息對注視行為的影響，以進一步提升模型的魯棒性和泛化能力，為構建更逼真和自然的虛擬角色奠定基礎。

文章來源：AI科技評論
作者微信：
作者簡介：雷峰網旗下AI新媒體。聚焦AI前沿研究，關注AI工程落地。

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...