<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        GPT-4o再暴露「弱智」缺陷,大模型無一幸免!港中文等發布「視覺聽覺」基準AV-Odyssey:26個任務直指死角問題

        AIGC動態7個月前發布 新智元
        216 0 0

        新智元報道編輯:LRST【新智元導讀】多模態大模型在聽覺上,居然也出現了「9.11>9.8」的現象,音量大小這種簡單問題都識別不了!港中文、斯坦福等大合發布的AV-Odyssey基準測試,包含26個視聽任務,覆蓋了7種聲音屬性,跨越了10個不同領域,確保測試的深度和廣度。在人工智能領域,我們一直以為頂尖的多模態大模型已經無所不能,GPT-4o在ASR(音頻轉文字)任務上已經達到了97%的正確率,更是凸顯了強大的音頻理解能力。然而,最近一項來自香港中文大學、斯坦福大學、伯克利大學和耶魯大學的研究成果卻徹底顛覆了這一認知——GPT-4o、Gemini 1.5 Pro、Reka Core等最先進的多模態大模型居然無確分辨明顯不同的聲音大小!下面是一個例子:結果讓人難以置信:這些頂尖的AI模型都未能準確判斷出音量的差異!對于人類來說,這種問題簡直是「傻瓜級」任務,然而這些大模型卻紛紛失手,暴露出其在基本聽覺能力上的嚴重缺陷。這一發現激發了研究團隊的思考:為什么如此先進的模型在聽覺辨識方面如此薄弱?為了填補這一空白,研究團隊首度提出了一個全新的測試工具——DeafTest,它專門用來測試多模態大模型的基礎聽覺能力。不僅如此,研究團隊還提出了首個全面的多模態大模型視聽能力評估基準——AV-Odyssey。這一基準旨在推動未來AI模型在聽覺、視覺的理解整合能力上邁向新高度。論文鏈接:https://arxiv.org/pdf/2412.02611項目地址:https://av-odyssey.github.io/代碼地址:https://github.com/AV-Odyssey/AV-OdysseyDeafTest:多模態大模型的「聽力盲點」為了測試多模態大模型最基礎的聽覺能力,研究團隊首先提出DeafTest,該測試包括四項基礎任務:數音頻中的聲音次數、比較兩個音頻的響度、比較兩個音頻的音高、比較兩個音頻的時長。這些任務都被設計為對人類來說極其簡單的判斷題,差異明顯,例如:在響度比較任務中,一個音頻的響度在70-100分貝之間,而另一個音頻則在30-60分貝之間。然而,測試結果卻令人震驚——這些頂尖的AI模型在大多數任務中的表現,幾乎與隨機猜測無異,準確率和隨機選擇的50%差不多,無疑暴露了多模態大模型在音頻感知上的巨大短板。AV-Odyssey Bench:全面評估多模態大模型的視聽能力為了更全面地評估AI在視聽能力上的表現,研究團隊還推出了一個全新的評估基準——AV-Odyssey。AV-Odyssey包含26個任務,覆蓋了7種聲音屬性——音色、語調、旋律、空間感知、時序、幻覺、綜合感知,并且跨越了10個不同領域,確保測試的深度和廣度。為了確保評估的穩健性和公正性,所有任務均采用四選一的多項選擇題形式,每個問題都融合了視覺、聽覺等多模態信息,全面考察模型的綜合處理能力。此外,為了避免因輸入順序或格式導致的偏差,所有輸入(包括文本、圖片/視頻和音頻片段)都會以交錯的方式輸入到多模態大模型中。問題的形式如下圖所示:AV-Odyssey中包含了由人類專家全新標注的4555個問題,確保題目沒有在其他任何數據集現過,任務分布以及統計信息如下面圖表所示:同時,為了進一步控制質量,研究團隊利用5個視覺語言模型和4個音頻大語言模型,過濾出包含冗余圖像或音頻片段的問題。在這個過程中,2.54%的問題同時被所有視覺語言模型或所有音頻大語言模型解決,研究團隊去除了這些問題。AV-Odyssey 實驗結果從實驗結果中,可以發現:AV-Odyssey的挑戰性:大多數現有的多模態大語言模型平均表現僅略高于25%,這與四選一問題的隨機猜測準確率相當。值得注意的是,即使是AV-Odyssey中的表現最佳的模型——GPT-4o,也僅取得了34.5%的準確率。這一結果凸顯了AV-Odyssey所帶來的高挑戰性,遠遠超出了當前模型訓練數據的分布范圍。通過設定嚴格的標準,AV-Odyssey基準測試為評估多模態大模型在音頻視覺任務中的能力提供了一個重要工具,突顯了現有模型的局限性,并為未來的改進指明了方向。開源多模態大模型訓練的局限性:同時,即便OneLLM、Unified-IO-2、VideoLLaMA2和NExT-GPT 通過引入Audiocaps等音頻-文本匹配數據集,嘗試增強音頻理解能力,并結合圖像-文本配對數據訓練視覺理解,這些模型在AV-Odyssey的測試中仍然表現不佳。這表明,目前的訓練流程并不足以真正彌合音頻與視覺模態之間的鴻溝,也未能有效地學習音視頻信息的整合與深度理解。AV-Odyssey 錯誤分析:音頻感知仍是瓶頸研究團隊對Gemini 1.5 Pro在AV-Odyssey中的錯誤進行深入分析,對每個任務隨機抽取了4個錯誤案例進行人工標注,最終得到104個錯誤案例,并對其進行統計。錯誤的分布如下圖所示:這一分析結果揭示了一個重要趨勢:63%的錯誤都集中在音頻理解上!例如,在某些任務中,雖然模型正確理解了視覺信息,但是音頻片段的內容識別錯誤,導致了錯誤答案的生成。一個例子如下圖所示:這一發現再次印證了DeafTest的初步結論:當前多模態大模型在基礎的聽力能力上存在明顯短板,音頻感知依然是多模態任務中的最大瓶頸。參考資料:https://av-odyssey.github.io/

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 中文字幕亚洲乱码熟女一区二区| 亚洲AV成人片色在线观看高潮| 在线观看免费成人| 伊人久久亚洲综合影院| 亚洲精品国偷自产在线| 99热亚洲色精品国产88| 国产成人免费ā片在线观看老同学 | 亚洲AV日韩精品久久久久| 中文字幕av无码不卡免费| 在线观看无码的免费网站| 亚洲日本成本人观看| 无码免费一区二区三区免费播放| 免费国产高清视频| 亚洲午夜电影在线观看高清| 中国一级毛片视频免费看| 国产V亚洲V天堂A无码| 免费在线观看一区| 女人被弄到高潮的免费视频 | 亚洲人妻av伦理| 国产精品亚洲综合久久| 99精品视频在线免费观看 | 久久精品视频亚洲| 国产精品黄页免费高清在线观看| 成人黄动漫画免费网站视频 | 免费乱码中文字幕网站| 国产精品免费大片一区二区| 亚洲国产高清在线| 精选影视免费在线 | 亚洲第一页日韩专区| 国内成人精品亚洲日本语音| 国产va免费精品观看精品| 久久久无码精品亚洲日韩蜜臀浪潮| 国产va免费精品| 亚洲一区二区三区四区在线观看| 免费大片黄在线观看yw| 亚洲精品中文字幕乱码| 18以下岁毛片在免费播放| 久久精品国产精品亚洲毛片| 在线精品免费视频无码的| 久久最新免费视频| 亚洲av永久无码精品天堂久久|