<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        谷歌發(fā)布BIG-Bench超難基準:DeepSeek-R1得分6.8,只有o3-mini超過10分

        AIGC動態(tài)4個月前發(fā)布 機器之心
        678 0 0

        推理模型不是什么都行。

        谷歌發(fā)布BIG-Bench超難基準:DeepSeek-R1得分6.8,只有o3-mini超過10分

        原標題:谷歌發(fā)布BIG-Bench超難基準:DeepSeek-R1得分6.8,只有o3-mini超過10分
        文章來源:機器之心
        內(nèi)容字數(shù):4962字

        谷歌發(fā)布超高難度AI基準測試BBEH:挑戰(zhàn)頂級模型

        近日,谷歌發(fā)布了一個名為BIG-Bench Extra Hard (BBEH) 的超高難度AI基準測試,旨在評估高階推理能力,并挑戰(zhàn)當前最先進的AI模型。BBEH基于之前的BIG-Bench Hard (BBH)構(gòu)建,但難度大幅提升,每個任務(wù)都比BBH更難,使得所有現(xiàn)有模型都有顯著的提升空間。

        1. BBEH的難度與設(shè)計

        BBEH通過將BBH中的23個任務(wù)替換成難度更高的同類任務(wù)而構(gòu)建,確保了數(shù)據(jù)集的多樣性。每個任務(wù)包含200個問題(Disambiguation QA任務(wù)除外,有120個問題)。即使是目前最強大的模型o3-mini (high),其得分也僅為44.8%,不及格;其他模型得分大多不超過10%。這表明BBEH成功地設(shè)定了極高的難度門檻。

        2. 頂級模型的表現(xiàn)與分析

        研究團隊對多個領(lǐng)先模型進行了測試,結(jié)果顯示:所有模型在BBEH上都有很大的進步空間。通用模型的最佳性能僅為9.8%的調(diào)和平均準確率,而專門的推理模型雖然表現(xiàn)更好,但最佳性能也只有44.8%。部分模型的準確率甚至低于隨機水平,原因是模型無法在有效輸出token長度內(nèi)解決問題,導(dǎo)致答案退化。

        此外,不同模型擅長不同類型的推理。例如,DeepSeek R1在BoardgameQA上表現(xiàn)突出,o3-mini (high)在時間序列和物體屬性方面表現(xiàn)優(yōu)異,GPT4o在NYCC上表現(xiàn)出色。

        3. 模型類型與大小的影響

        研究結(jié)果表明,推理模型在涉及數(shù)學和編碼的推理任務(wù)上表現(xiàn)顯著優(yōu)于通用模型。然而,在涉及常識、幽默、諷刺和因果關(guān)系等復(fù)雜現(xiàn)實場景的任務(wù)中,推理模型的優(yōu)勢并不明顯。

        模型大小也對性能有影響。更大的模型在需要多跳推理或應(yīng)用算法的任務(wù)上表現(xiàn)更好,但在涉及幽默、常識和因果推理的任務(wù)上優(yōu)勢不明顯,SARC Triples任務(wù)是個例外。

        4. 上下文長度和思考量的影響

        BBEH任務(wù)的上下文長度和所需思考量各不相同。研究發(fā)現(xiàn),與通用模型相比,推理模型在上下文長度增加或思考量增加時,性能提升更為顯著。這表明推理模型在處理更長上下文和更復(fù)雜推理問題方面具有更大的潛力。

        5. 總結(jié)

        BBEH基準的發(fā)布為AI模型的評估提供了新的挑戰(zhàn),也為未來的研究方向指明了道路。該基準的超高難度促使研究者開發(fā)更強大的模型,并更深入地理解AI模型的推理能力及其局限性。BBEH的出現(xiàn)也標志著對AI模型評估方法的持續(xù)改進,未來將會有更多更難的基準出現(xiàn)。


        聯(lián)系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 麻豆一区二区免费播放网站 | 亚洲国产精品碰碰| 国产亚洲综合网曝门系列| 亚洲综合精品第一页| 中文字幕在线免费看| 亚洲视频人成在线播放| 国产偷国产偷亚洲清高APP| 成人免费福利电影| 亚洲精品成人av在线| 一区二区免费国产在线观看| 日本免费无遮挡吸乳视频电影| 国产亚洲玖玖玖在线观看| 麻豆最新国产剧情AV原创免费| 亚洲成人黄色在线| 精品国产免费人成电影在线观看| 亚洲尹人九九大色香蕉网站| 免费精品无码AV片在线观看| 久久精品亚洲一区二区三区浴池 | 可以免费观看的国产视频| 国产∨亚洲V天堂无码久久久| 国产成人免费ā片在线观看老同学 | 9420免费高清在线视频| 亚洲免费电影网站| 女人18毛片免费观看| 国产亚洲日韩在线a不卡| 一级毛片直播亚洲| 两个人看的www免费视频中文| 久久伊人久久亚洲综合| 国产成人精品免费视频动漫 | 亚洲精品无码你懂的网站| 成人特级毛片69免费观看| 亚洲日韩乱码中文无码蜜桃臀网站 | 亚洲一卡2卡3卡4卡乱码 在线| 四虎免费在线观看| 国产成人无码精品久久久免费 | 亚洲成人午夜电影| 日本免费v片一二三区| 国产无限免费观看黄网站| 亚洲精品福利网站| 日本中文一区二区三区亚洲| 大地资源中文在线观看免费版|