<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        谷歌發布BIG-Bench超難基準:DeepSeek-R1得分6.8,只有o3-mini超過10分

        AIGC動態7個月前發布 機器之心
        692 0 0

        推理模型不是什么都行。

        谷歌發布BIG-Bench超難基準:DeepSeek-R1得分6.8,只有o3-mini超過10分

        原標題:谷歌發布BIG-Bench超難基準:DeepSeek-R1得分6.8,只有o3-mini超過10分
        文章來源:機器之心
        內容字數:4962字

        谷歌發布超高難度AI基準測試BBEH:挑戰頂級模型

        近日,谷歌發布了一個名為BIG-Bench Extra Hard (BBEH) 的超高難度AI基準測試,旨在評估高階推理能力,并挑戰當前最先進的AI模型。BBEH基于之前的BIG-Bench Hard (BBH)構建,但難度大幅提升,每個任務都比BBH更難,使得所有現有模型都有顯著的提升空間。

        1. BBEH的難度與設計

        BBEH通過將BBH中的23個任務替換成難度更高的同類任務而構建,確保了數據集的多樣性。每個任務包含200個問題(Disambiguation QA任務除外,有120個問題)。即使是目前最強大的模型o3-mini (high),其得分也僅為44.8%,不及格;其他模型得分大多不超過10%。這表明BBEH成功地設定了極高的難度門檻。

        2. 頂級模型的表現與分析

        研究團隊對多個領先模型進行了測試,結果顯示:所有模型在BBEH上都有很大的進步空間。通用模型的最佳性能僅為9.8%的調和平均準確率,而專門的推理模型雖然表現更好,但最佳性能也只有44.8%。部分模型的準確率甚至低于隨機水平,原因是模型無法在有效輸出token長度內解決問題,導致答案退化。

        此外,不同模型擅長不同類型的推理。例如,DeepSeek R1在BoardgameQA上表現突出,o3-mini (high)在時間序列和物體屬性方面表現優異,GPT4o在NYCC上表現出色。

        3. 模型類型與大小的影響

        研究結果表明,推理模型在涉及數學和編碼的推理任務上表現顯著優于通用模型。然而,在涉及常識、幽默、諷刺和因果關系等復雜現實場景的任務中,推理模型的優勢并不明顯。

        模型大小也對性能有影響。更大的模型在需要多跳推理或應用算法的任務上表現更好,但在涉及幽默、常識和因果推理的任務上優勢不明顯,SARC Triples任務是個例外。

        4. 上下文長度和思考量的影響

        BBEH任務的上下文長度和所需思考量各不相同。研究發現,與通用模型相比,推理模型在上下文長度增加或思考量增加時,性能提升更為顯著。這表明推理模型在處理更長上下文和更復雜推理問題方面具有更大的潛力。

        5. 總結

        BBEH基準的發布為AI模型的評估提供了新的挑戰,也為未來的研究方向指明了道路。該基準的超高難度促使研究者開發更強大的模型,并更深入地理解AI模型的推理能力及其局限性。BBEH的出現也標志著對AI模型評估方法的持續改進,未來將會有更多更難的基準出現。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 最近的2019免费中文字幕| 国内精品乱码卡1卡2卡3免费| 国产91久久久久久久免费| 亚洲精品在线免费看| 亚洲午夜在线播放| 最近2019中文字幕免费大全5 | 国产无遮挡裸体免费视频| 亚洲AV成人影视在线观看| 无码免费午夜福利片在线| 亚洲卡一卡二卡乱码新区| 免费观看美女裸体网站| 亚洲成色www久久网站夜月| a级毛片100部免费观看| 亚洲大片在线观看| 四虎精品视频在线永久免费观看| 亚洲欧洲精品久久| 毛片a级三毛片免费播放| 色偷偷亚洲第一综合网| 亚洲天堂免费在线视频| 免费看搞黄视频网站| 精品日韩亚洲AV无码 | 国产精品免费无遮挡无码永久视频 | 日本免费一区二区三区最新| 在线看亚洲十八禁网站| 久久亚洲精品无码播放| 久久国产精品2020免费m3u8| 亚洲日本乱码一区二区在线二产线 | 亚洲精品在线电影| 暖暖免费高清日本一区二区三区| 无码日韩人妻AV一区免费l| 日韩免费高清一级毛片在线| 九九久久国产精品免费热6| 国产成人涩涩涩视频在线观看免费| 日韩在线视频线视频免费网站| 国产成人精品久久亚洲| 久久九九兔免费精品6| 亚洲av日韩综合一区二区三区| 成人午夜亚洲精品无码网站| 国产妇乱子伦视频免费| 特黄aa级毛片免费视频播放| 久久精品a亚洲国产v高清不卡|