<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        這屆出題太難了!新基準(zhǔn)讓多模態(tài)模型集體自閉,GPT-4o都是零分

        AIGC動態(tài)7個月前發(fā)布 機器之心
        286 0 0

        100題,每道都是送命題。

        這屆出題太難了!新基準(zhǔn)讓多模態(tài)模型集體自閉,GPT-4o都是零分

        原標(biāo)題:這屆出題太難了!新基準(zhǔn)讓多模態(tài)模型集體自閉,GPT-4o都是零分
        文章來源:機器之心
        內(nèi)容字?jǐn)?shù):5944字

        ZeroBench:顛覆大模型視覺理解能力的全新基準(zhǔn)

        近日,一個名為ZeroBench的視覺基準(zhǔn)測試橫空出世,挑戰(zhàn)了包括GPT-4o和Gemini 2 Flash在內(nèi)的20多個頂尖大型多模態(tài)模型(LMM),并使其全部獲得零分。這引發(fā)了業(yè)界對現(xiàn)有大模型視覺理解能力的重新思考。

        1. ZeroBench的挑戰(zhàn)性問題

        ZeroBench包含100個手工定制的極具挑戰(zhàn)性的問題,這些問題并非簡單的圖像識別,而是需要模型進行多步驟推理、復(fù)雜的視覺理解和跨領(lǐng)域的知識運用。例如:

        1. 從一張反光模糊的菜單中,計算點單所有菜品的總價。
        2. 根據(jù)圖片計算不同重量和顏色的啞鈴的總重量,并進行分類統(tǒng)計。
        3. 根據(jù)圖片中的線索,推理出一個6位數(shù)的保險箱密碼。
        4. 計算圖片中朝南的鵝占總數(shù)的百分比,需要考慮方位、季節(jié)等因素。
        5. 根據(jù)一個由賽艇隊員裝備制成的特殊時鐘,解答一系列涉及時間、空間和幾何變換的問題。

        這些問題不僅考驗?zāi)P偷囊曈X識別能力,還要求其具備強大的推理能力、知識儲備和對復(fù)雜場景的理解。

        2. ZeroBench的構(gòu)建過程

        ZeroBench的100個問題由20多位專家手工打造,并經(jīng)過嚴(yán)格的篩選過程。為了保證難度,研究團隊使用了最新的模型進行“試水”,不斷調(diào)整問題的難度,直到達到“難度適中”的標(biāo)準(zhǔn)。篩選流程包括反饋、初步評估、審查和對抗過濾四個步驟,確保問題的挑戰(zhàn)性和多樣性。

        3. 評估結(jié)果與分析

        在ZeroBench上,所有參與評估的20個LMM均表現(xiàn)不佳,平均得分均為0%。即使是表現(xiàn)最好的Gemini 2 Flash Thinking,其正確率也僅為7%。研究人員發(fā)現(xiàn),模型在視覺解讀方面存在諸多錯誤,例如錯誤計數(shù)、忽略細節(jié)、空間關(guān)系理解困難等。

        4. ZeroBench的意義

        ZeroBench的出現(xiàn),標(biāo)志著對大模型視覺理解能力評估進入了一個新的階段。它打破了現(xiàn)有基準(zhǔn)測試的局限性,為更準(zhǔn)確地衡量大模型的真實視覺理解能力提供了新的標(biāo)準(zhǔn),也為大模型未來的發(fā)展方向指明了方向。

        ZeroBench項目主頁:https://zerobench.github.io/

        論文地址:https://arxiv.org/pdf/2502.09696


        聯(lián)系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 曰韩无码AV片免费播放不卡| 一个人免费日韩不卡视频| 亚洲精品无码久久久久去q | 亚洲视频免费播放| 亚洲国产午夜精品理论片在线播放 | 丰满亚洲大尺度无码无码专线| 久久亚洲国产精品123区| 国产精品怡红院永久免费| 国产成人亚洲精品蜜芽影院| 国产亚洲A∨片在线观看| 成人毛片18岁女人毛片免费看| 国产性生大片免费观看性| 国产成人精品日本亚洲专| 亚洲国产专区一区| 国产免费看JIZZ视频| 国产黄色片免费看| 亚洲色无码国产精品网站可下载| 中文字幕亚洲一区| 韩国欧洲一级毛片免费| 无人在线观看免费高清| 人妻仑刮八A级毛片免费看| 亚洲一区二区三区四区视频| 亚洲人成影院在线无码按摩店| 成人五级毛片免费播放| 日韩免费无码视频一区二区三区| 福利片免费一区二区三区| 亚洲人色大成年网站在线观看| 亚洲伊人色欲综合网| 国产成人免费手机在线观看视频 | 在线播放免费人成视频在线观看| 欧洲人免费视频网站在线| 老司机福利在线免费观看| 亚洲人成影院在线高清| 亚洲AV无码成人精品区蜜桃| 一区二区三区亚洲视频| 四虎成人免费影院网址| 亚洲一级毛片免费看| 免费国产成人18在线观看| 久久精品无码专区免费| 免费国产va视频永久在线观看| 亚洲一本一道一区二区三区|