<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        GPT-4o再暴露「弱智」缺陷,大模型無一幸免!港中文等發(fā)布「視覺聽覺」基準(zhǔn)AV-Odyssey:26個任務(wù)直指死角問題

        AIGC動態(tài)5個月前發(fā)布 新智元
        215 0 0

        新智元報道編輯:LRST【新智元導(dǎo)讀】多模態(tài)大模型在聽覺上,居然也出現(xiàn)了「9.11>9.8」的現(xiàn)象,音量大小這種簡單問題都識別不了!港中文、斯坦福等大合發(fā)布的AV-Odyssey基準(zhǔn)測試,包含26個視聽任務(wù),覆蓋了7種聲音屬性,跨越了10個不同領(lǐng)域,確保測試的深度和廣度。在人工智能領(lǐng)域,我們一直以為頂尖的多模態(tài)大模型已經(jīng)無所不能,GPT-4o在ASR(音頻轉(zhuǎn)文字)任務(wù)上已經(jīng)達到了97%的正確率,更是凸顯了強大的音頻理解能力。然而,最近一項來自香港中文大學(xué)、斯坦福大學(xué)、伯克利大學(xué)和耶魯大學(xué)的研究成果卻徹底顛覆了這一認(rèn)知——GPT-4o、Gemini 1.5 Pro、Reka Core等最先進的多模態(tài)大模型居然無確分辨明顯不同的聲音大小!下面是一個例子:結(jié)果讓人難以置信:這些頂尖的AI模型都未能準(zhǔn)確判斷出音量的差異!對于人類來說,這種問題簡直是「傻瓜級」任務(wù),然而這些大模型卻紛紛失手,暴露出其在基本聽覺能力上的嚴(yán)重缺陷。這一發(fā)現(xiàn)激發(fā)了研究團隊的思考:為什么如此先進的模型在聽覺辨識方面如此薄弱?為了填補這一空白,研究團隊首度提出了一個全新的測試工具——DeafTest,它專門用來測試多模態(tài)大模型的基礎(chǔ)聽覺能力。不僅如此,研究團隊還提出了首個全面的多模態(tài)大模型視聽能力評估基準(zhǔn)——AV-Odyssey。這一基準(zhǔn)旨在推動未來AI模型在聽覺、視覺的理解整合能力上邁向新高度。論文鏈接:https://arxiv.org/pdf/2412.02611項目地址:https://av-odyssey.github.io/代碼地址:https://github.com/AV-Odyssey/AV-OdysseyDeafTest:多模態(tài)大模型的「聽力盲點」為了測試多模態(tài)大模型最基礎(chǔ)的聽覺能力,研究團隊首先提出DeafTest,該測試包括四項基礎(chǔ)任務(wù):數(shù)音頻中的聲音次數(shù)、比較兩個音頻的響度、比較兩個音頻的音高、比較兩個音頻的時長。這些任務(wù)都被設(shè)計為對人類來說極其簡單的判斷題,差異明顯,例如:在響度比較任務(wù)中,一個音頻的響度在70-100分貝之間,而另一個音頻則在30-60分貝之間。然而,測試結(jié)果卻令人震驚——這些頂尖的AI模型在大多數(shù)任務(wù)中的表現(xiàn),幾乎與隨機猜測無異,準(zhǔn)確率和隨機選擇的50%差不多,無疑暴露了多模態(tài)大模型在音頻感知上的巨大短板。AV-Odyssey Bench:全面評估多模態(tài)大模型的視聽能力為了更全面地評估AI在視聽能力上的表現(xiàn),研究團隊還推出了一個全新的評估基準(zhǔn)——AV-Odyssey。AV-Odyssey包含26個任務(wù),覆蓋了7種聲音屬性——音色、語調(diào)、旋律、空間感知、時序、幻覺、綜合感知,并且跨越了10個不同領(lǐng)域,確保測試的深度和廣度。為了確保評估的穩(wěn)健性和公正性,所有任務(wù)均采用四選一的多項選擇題形式,每個問題都融合了視覺、聽覺等多模態(tài)信息,全面考察模型的綜合處理能力。此外,為了避免因輸入順序或格式導(dǎo)致的偏差,所有輸入(包括文本、圖片/視頻和音頻片段)都會以交錯的方式輸入到多模態(tài)大模型中。問題的形式如下圖所示:AV-Odyssey中包含了由人類專家全新標(biāo)注的4555個問題,確保題目沒有在其他任何數(shù)據(jù)集現(xiàn)過,任務(wù)分布以及統(tǒng)計信息如下面圖表所示:同時,為了進一步控制質(zhì)量,研究團隊利用5個視覺語言模型和4個音頻大語言模型,過濾出包含冗余圖像或音頻片段的問題。在這個過程中,2.54%的問題同時被所有視覺語言模型或所有音頻大語言模型解決,研究團隊去除了這些問題。AV-Odyssey 實驗結(jié)果從實驗結(jié)果中,可以發(fā)現(xiàn):AV-Odyssey的挑戰(zhàn)性:大多數(shù)現(xiàn)有的多模態(tài)大語言模型平均表現(xiàn)僅略高于25%,這與四選一問題的隨機猜測準(zhǔn)確率相當(dāng)。值得注意的是,即使是AV-Odyssey中的表現(xiàn)最佳的模型——GPT-4o,也僅取得了34.5%的準(zhǔn)確率。這一結(jié)果凸顯了AV-Odyssey所帶來的高挑戰(zhàn)性,遠(yuǎn)遠(yuǎn)超出了當(dāng)前模型訓(xùn)練數(shù)據(jù)的分布范圍。通過設(shè)定嚴(yán)格的標(biāo)準(zhǔn),AV-Odyssey基準(zhǔn)測試為評估多模態(tài)大模型在音頻視覺任務(wù)中的能力提供了一個重要工具,突顯了現(xiàn)有模型的局限性,并為未來的改進指明了方向。開源多模態(tài)大模型訓(xùn)練的局限性:同時,即便OneLLM、Unified-IO-2、VideoLLaMA2和NExT-GPT 通過引入Audiocaps等音頻-文本匹配數(shù)據(jù)集,嘗試增強音頻理解能力,并結(jié)合圖像-文本配對數(shù)據(jù)訓(xùn)練視覺理解,這些模型在AV-Odyssey的測試中仍然表現(xiàn)不佳。這表明,目前的訓(xùn)練流程并不足以真正彌合音頻與視覺模態(tài)之間的鴻溝,也未能有效地學(xué)習(xí)音視頻信息的整合與深度理解。AV-Odyssey 錯誤分析:音頻感知仍是瓶頸研究團隊對Gemini 1.5 Pro在AV-Odyssey中的錯誤進行深入分析,對每個任務(wù)隨機抽取了4個錯誤案例進行人工標(biāo)注,最終得到104個錯誤案例,并對其進行統(tǒng)計。錯誤的分布如下圖所示:這一分析結(jié)果揭示了一個重要趨勢:63%的錯誤都集中在音頻理解上!例如,在某些任務(wù)中,雖然模型正確理解了視覺信息,但是音頻片段的內(nèi)容識別錯誤,導(dǎo)致了錯誤答案的生成。一個例子如下圖所示:這一發(fā)現(xiàn)再次印證了DeafTest的初步結(jié)論:當(dāng)前多模態(tài)大模型在基礎(chǔ)的聽力能力上存在明顯短板,音頻感知依然是多模態(tài)任務(wù)中的最大瓶頸。參考資料:https://av-odyssey.github.io/

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 精品亚洲麻豆1区2区3区| 免费在线观看你懂的| 国产亚洲精品va在线| 中国一级特黄高清免费的大片中国一级黄色片 | 久久久高清日本道免费观看| 国产亚洲精午夜久久久久久| j8又粗又长又硬又爽免费视频 | 亚洲色图在线观看| 99视频免费播放| 亚洲综合网美国十次| 免费影院未满十八勿进网站| 国产成人亚洲综合网站不卡| 永久免费无码网站在线观看| 国产亚洲精品美女久久久久| 亚洲精品偷拍视频免费观看| 久久国产精品免费一区二区三区| 久久亚洲国产精品五月天婷| a级毛片黄免费a级毛片| 亚洲AV无码专区国产乱码电影| 久久一本岛在免费线观看2020| 亚洲精品在线免费观看视频| 在线观看免费成人| 国产亚洲综合久久| 亚洲av永久无码制服河南实里| 一级毛片免费播放| 亚洲色偷精品一区二区三区| 国产成人免费a在线视频色戒| 丰满少妇作爱视频免费观看| 亚洲AV区无码字幕中文色| 色se01短视频永久免费| 精品无码专区亚洲| 久久久青草青青亚洲国产免观 | 成在线人永久免费视频播放| 好吊色永久免费视频大全| 亚洲视频一区网站| 日韩视频免费一区二区三区| 最近免费中文字幕中文高清 | 免费人人潮人人爽一区二区| 亚洲精品无码成人片久久| 国产成人免费高清激情视频| 一级成人毛片免费观看|