国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Claude 3.7硬控馬里奧90秒,GPT-4o開局暴斃!Karpathy直呼基準失效,游戲成LLM新戰場

AIGC動態7個月前發布 新智元
377 0 0

Claude 3.7硬控馬里奧90秒,GPT-4o開局暴斃!Karpathy直呼基準失效,游戲成LLM新戰場

原標題:Claude 3.7硬控馬里奧90秒,GPT-4o開局暴斃!Karpathy直呼基準失效,游戲成LLM新戰場
文章來源:新智元
內容字數:3651字

AI評估新標準:游戲測試的興起

近年來,大型語言模型(LLM)的評估標準一直備受爭議。Andrej Karpathy等AI專家也表達了對現有基準的擔憂,例如MMLU、SWE-Bench Verified和Chatbot Arena等,都存在各自的局限性。 面對這一“評估危機”,一個新興的評估方向正悄然興起——游戲測試。

  1. 游戲測試:超越傳統基準

    文章指出,經典游戲,如超級馬里奧和2048,正成為評估LLM智能體的新標桿。這源于游戲測試能夠更全面地評估AI的規劃能力、問題解決能力以及適應性等多方面能力,而這些能力是傳統文本基準難以完全捕捉的。

  2. 超級馬里奧:AI能力拼

    加州大學圣迭戈分校Hao AI Lab開發的“游戲智能體” (CUA) 對多個LLM進行了超級馬里奧游戲測試。結果顯示,Claude 3.7 Sonnet的表現尤為突出,能夠持續游戲90秒,并展現出更高級的策略,例如躲避敵人、尋找隱藏獎勵等,遠超OpenAI的GPT-4、GPT-4.0和谷歌的Gemini系列模型。GPT-4.0甚至在第一關就被擊敗,而Gemini 1.5和2.0則表現出簡單的重復性動作,例如“兩步一跳”。

  3. 其他游戲測試:更全面的評估

    除了超級馬里奧,Hao AI Lab還對2048和方塊進行了測試。在2048游戲中,Claude 3.7的表現優于GPT-4.0,但在方塊中,Claude 3.7的表現則沒有詳細描述。這些測試結果進一步表明,游戲測試能夠提供更豐富、更直觀的AI能力評估。

  4. 游戲測試的未來

    文章最后指出,游戲測試有望成為LLM評估的新標準,并引發了更多討論和探索。Anthropic的開發者也表達了對這一方法的肯定,認為將各種電子游戲都作為評估工具具有巨大潛力。未來,更多游戲和更先進的AI模型有望加入這一測試。

總而言之,文章認為,基于游戲的AI評估方法,能夠更全面地考察AI的智力水平,為AI發展提供更有效的評估手段,并預示著LLM評估領域的新篇章。


聯系作者

文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        久久影院午夜片一区| 国产成人综合网| 日本特黄久久久高潮| 在线观看日韩国产| 亚洲精品国产a久久久久久| 91黄色免费网站| 午夜日韩在线电影| 精品国产一区二区三区av性色| 日韩国产高清影视| 国产亚洲一区二区在线观看| 9人人澡人人爽人人精品| 亚洲男人的天堂在线观看| 91极品视觉盛宴| 美女看a上一区| 国产精品三级av| 欧美日韩国产大片| 成人av在线电影| 日本最新不卡在线| 亚洲色图制服诱惑| 日韩三级精品电影久久久| 国产自产高清不卡| 亚洲高清不卡在线观看| 久久嫩草精品久久久精品| 在线免费观看日韩欧美| 婷婷开心久久网| 国产日韩欧美精品电影三级在线| 91丨九色丨蝌蚪富婆spa| 老司机午夜精品99久久| 亚洲精品国产无套在线观| 精品sm在线观看| 欧美日韩精品高清| 丁香六月久久综合狠狠色| 老司机精品视频一区二区三区| 中文字幕亚洲欧美在线不卡| 日韩一区二区三区高清免费看看| 成人91在线观看| 久久国产精品无码网站| 亚洲a一区二区| 亚洲精品亚洲人成人网在线播放| 久久精品夜夜夜夜久久| 欧美高清激情brazzers| 91免费看视频| voyeur盗摄精品| 国产激情精品久久久第一区二区| 天涯成人国产亚洲精品一区av| 国产精品久线在线观看| 日韩欧美亚洲国产精品字幕久久久 | 午夜久久久影院| 国产精品热久久久久夜色精品三区 | 午夜精品久久久久久久久| 中文字幕在线不卡一区| 久久久久国产精品人| 欧美一级片免费看| 9191国产精品| 欧美精品第1页| 欧美日韩免费不卡视频一区二区三区 | 成人av免费网站| 国产麻豆精品在线| 麻豆成人久久精品二区三区红| 日韩经典一区二区| 日韩精品亚洲一区二区三区免费| 亚洲激情在线播放| 亚洲精品午夜久久久| 亚洲图片欧美一区| 亚洲va欧美va国产va天堂影院| 亚洲小说春色综合另类电影| 亚洲va欧美va天堂v国产综合| 婷婷一区二区三区| 麻豆成人在线观看| 福利一区在线观看| 欧美影院一区二区| 91精品国产一区二区三区香蕉| 欧美一区二区三区视频免费播放| 在线电影一区二区三区| 3751色影院一区二区三区| 欧美一二三四在线| 久久精品亚洲精品国产欧美 | 一区二区免费在线| 午夜精品久久久久久久| 激情综合色丁香一区二区| 国产成人三级在线观看| 99久久99久久精品免费观看| 欧美性受xxxx| 精品电影一区二区| 国产精品久久久久久久久图文区| 一区二区成人在线视频| 免费成人深夜小野草| 国产福利91精品一区二区三区| 国产69精品久久99不卡| 在线观看日韩电影| 精品国产乱子伦一区| 国产精品每日更新在线播放网址 | 亚洲国产成人一区二区三区| 亚洲男人电影天堂| 久久av资源网| 欧美色中文字幕| 欧美激情一区二区三区不卡| 亚洲免费大片在线观看| 日韩av中文字幕一区二区| 国产suv精品一区二区三区| 91黄色免费看| 欧美韩国日本不卡| 日韩成人免费看| 99久久久精品| 亚洲精品在线网站| 日韩影视精彩在线| 在线视频一区二区三区| 久久久国产精品午夜一区ai换脸| 亚洲国产精品人人做人人爽| 成人一区二区三区在线观看| 欧美一区二区福利在线| 夜夜嗨av一区二区三区| 波多野结衣一区二区三区| 久久综合狠狠综合| 蜜桃精品视频在线| 欧美日韩一级大片网址| 亚洲欧洲av另类| 成人涩涩免费视频| 国产亚洲一二三区| 国产精品白丝jk白祙喷水网站| 日韩视频一区二区三区在线播放| 亚洲第一福利一区| 91久久国产最好的精华液| 亚洲欧洲精品一区二区三区| 国产一区二区在线免费观看| 欧美一区二区三区免费| 免费在线观看视频一区| 欧美精选在线播放| 亚洲成av人影院在线观看网| 色老综合老女人久久久| 亚洲老妇xxxxxx| 色视频一区二区| 亚洲福利电影网| 欧美日韩国产a| 日韩国产欧美在线播放| 555www色欧美视频| 老司机精品视频导航| 欧美mv日韩mv国产网站| 久久国产夜色精品鲁鲁99| 26uuu另类欧美| 国产精品夜夜爽| 亚洲国产成人午夜在线一区| kk眼镜猥琐国模调教系列一区二区| 国产精品嫩草影院av蜜臀| 91在线云播放| 亚洲一区二区三区在线看| 欧美久久一二三四区| 久久不见久久见免费视频7| 久久先锋影音av鲁色资源网| 成人一区二区三区视频在线观看| 亚洲色图视频免费播放| 在线免费观看日本一区| 毛片一区二区三区| 欧美国产日本韩| 欧美三级韩国三级日本三斤| 日韩精品高清不卡| 精品福利av导航| 91在线精品秘密一区二区| 伊人婷婷欧美激情| 日韩一区二区三区视频在线| 国产**成人网毛片九色| 亚洲午夜一区二区三区| 精品国产3级a| 欧美午夜宅男影院| 狠狠色2019综合网| 亚洲色图视频网站| 精品第一国产综合精品aⅴ| 91蜜桃传媒精品久久久一区二区| 亚洲一级在线观看| 国产日产欧美精品一区二区三区| 91精品办公室少妇高潮对白| 蜜桃视频一区二区| 一片黄亚洲嫩模| 国产欧美日本一区二区三区| 日本高清不卡视频| 国产精品一区久久久久| 丝袜亚洲另类欧美| 欧美国产禁国产网站cc| 911精品国产一区二区在线| a美女胸又www黄视频久久| 男人的天堂久久精品| 亚洲欧美日韩久久精品| 久久久精品影视| 欧美一区二区日韩| 精品视频资源站| 91首页免费视频| 成人午夜激情影院| 激情文学综合网| 蜜臀av性久久久久蜜臀av麻豆 | 粉嫩aⅴ一区二区三区四区| 五月天网站亚洲| 亚洲欧美中日韩| 久久日韩精品一区二区五区| 911精品国产一区二区在线| 91福利社在线观看| 91丝袜呻吟高潮美腿白嫩在线观看| 国产老肥熟一区二区三区| 麻豆极品一区二区三区| 日韩avvvv在线播放| 香蕉乱码成人久久天堂爱免费|