GPT-4o再暴露「弱智」缺陷，大模型無一幸免！港中文等發布「視覺聽覺」基準AV-Odyssey：26個任務直指死角問題

新智元報道編輯：LRST【新智元導讀】多模態大模型在聽覺上，居然也出現了「9.11>9.8」的現象，音量大小這種簡單問題都識別不了！港中文、斯坦福等大合發布的AV-Odyssey基準測試，包含26個視聽任務，覆蓋了7種聲音屬性，跨越了10個不同領域，確保測試的深度和廣度。在人工智能領域，我們一直以為頂尖的多模態大模型已經無所不能，GPT-4o在ASR（音頻轉文字）任務上已經達到了97%的正確率，更是凸顯了強大的音頻理解能力。然而，最近一項來自香港中文大學、斯坦福大學、伯克利大學和耶魯大學的研究成果卻徹底顛覆了這一認知——GPT-4o、Gemini 1.5 Pro、Reka Core等最先進的多模態大模型居然無確分辨明顯不同的聲音大小！下面是一個例子：結果讓人難以置信：這些頂尖的AI模型都未能準確判斷出音量的差異！對于人類來說，這種問題簡直是「傻瓜級」任務，然而這些大模型卻紛紛失手，暴露出其在基本聽覺能力上的嚴重缺陷。這一發現激發了研究團隊的思考：為什么如此先進的模型在聽覺辨識方面如此薄弱？為了填補這一空白，研究團隊首度提出了一個全新的測試工具——DeafTest，它專門用來測試多模態大模型的基礎聽覺能力。不僅如此，研究團隊還提出了首個全面的多模態大模型視聽能力評估基準——AV-Odyssey。這一基準旨在推動未來AI模型在聽覺、視覺的理解整合能力上邁向新高度。論文鏈接：https://arxiv.org/pdf/2412.02611項目地址：https://av-odyssey.github.io/代碼地址：https://github.com/AV-Odyssey/AV-OdysseyDeafTest：多模態大模型的「聽力盲點」為了測試多模態大模型最基礎的聽覺能力，研究團隊首先提出DeafTest，該測試包括四項基礎任務：數音頻中的聲音次數、比較兩個音頻的響度、比較兩個音頻的音高、比較兩個音頻的時長。這些任務都被設計為對人類來說極其簡單的判斷題，差異明顯，例如：在響度比較任務中，一個音頻的響度在70-100分貝之間，而另一個音頻則在30-60分貝之間。然而，測試結果卻令人震驚——這些頂尖的AI模型在大多數任務中的表現，幾乎與隨機猜測無異，準確率和隨機選擇的50%差不多，無疑暴露了多模態大模型在音頻感知上的巨大短板。AV-Odyssey Bench：全面評估多模態大模型的視聽能力為了更全面地評估AI在視聽能力上的表現，研究團隊還推出了一個全新的評估基準——AV-Odyssey。AV-Odyssey包含26個任務，覆蓋了7種聲音屬性——音色、語調、旋律、空間感知、時序、幻覺、綜合感知，并且跨越了10個不同領域，確保測試的深度和廣度。為了確保評估的穩健性和公正性，所有任務均采用四選一的多項選擇題形式，每個問題都融合了視覺、聽覺等多模態信息，全面考察模型的綜合處理能力。此外，為了避免因輸入順序或格式導致的偏差，所有輸入（包括文本、圖片/視頻和音頻片段）都會以交錯的方式輸入到多模態大模型中。問題的形式如下圖所示：AV-Odyssey中包含了由人類專家全新標注的4555個問題，確保題目沒有在其他任何數據集現過，任務分布以及統計信息如下面圖表所示：同時，為了進一步控制質量，研究團隊利用5個視覺語言模型和4個音頻大語言模型，過濾出包含冗余圖像或音頻片段的問題。在這個過程中，2.54%的問題同時被所有視覺語言模型或所有音頻大語言模型解決，研究團隊去除了這些問題。AV-Odyssey 實驗結果從實驗結果中，可以發現：AV-Odyssey的挑戰性：大多數現有的多模態大語言模型平均表現僅略高于25%，這與四選一問題的隨機猜測準確率相當。值得注意的是，即使是AV-Odyssey中的表現最佳的模型——GPT-4o，也僅取得了34.5%的準確率。這一結果凸顯了AV-Odyssey所帶來的高挑戰性，遠遠超出了當前模型訓練數據的分布范圍。通過設定嚴格的標準，AV-Odyssey基準測試為評估多模態大模型在音頻視覺任務中的能力提供了一個重要工具，突顯了現有模型的局限性，并為未來的改進指明了方向。開源多模態大模型訓練的局限性：同時，即便OneLLM、Unified-IO-2、VideoLLaMA2和NExT-GPT 通過引入Audiocaps等音頻-文本匹配數據集，嘗試增強音頻理解能力，并結合圖像-文本配對數據訓練視覺理解，這些模型在AV-Odyssey的測試中仍然表現不佳。這表明，目前的訓練流程并不足以真正彌合音頻與視覺模態之間的鴻溝，也未能有效地學習音視頻信息的整合與深度理解。AV-Odyssey 錯誤分析：音頻感知仍是瓶頸研究團隊對Gemini 1.5 Pro在AV-Odyssey中的錯誤進行深入分析，對每個任務隨機抽取了4個錯誤案例進行人工標注，最終得到104個錯誤案例，并對其進行統計。錯誤的分布如下圖所示：這一分析結果揭示了一個重要趨勢：63%的錯誤都集中在音頻理解上！例如，在某些任務中，雖然模型正確理解了視覺信息，但是音頻片段的內容識別錯誤，導致了錯誤答案的生成。一個例子如下圖所示：這一發現再次印證了DeafTest的初步結論：當前多模態大模型在基礎的聽力能力上存在明顯短板，音頻感知依然是多模態任務中的最大瓶頸。參考資料：https://av-odyssey.github.io/

閱讀原文