原標題:Claude 3.7硬控馬里奧90秒,GPT-4o開局暴斃!Karpathy直呼基準失效,游戲成LLM新戰場
文章來源:新智元
內容字數:3651字
AI評估新標準:游戲測試的興起
近年來,大型語言模型(LLM)的評估標準一直備受爭議。Andrej Karpathy等AI專家也表達了對現有基準的擔憂,例如MMLU、SWE-Bench Verified和Chatbot Arena等,都存在各自的局限性。 面對這一“評估危機”,一個新興的評估方向正悄然興起——游戲測試。
游戲測試:超越傳統基準
文章指出,經典游戲,如超級馬里奧和2048,正成為評估LLM智能體的新標桿。這源于游戲測試能夠更全面地評估AI的規劃能力、問題解決能力以及適應性等多方面能力,而這些能力是傳統文本基準難以完全捕捉的。
超級馬里奧:AI能力拼
加州大學圣迭戈分校Hao AI Lab開發的“游戲智能體” (CUA) 對多個LLM進行了超級馬里奧游戲測試。結果顯示,Claude 3.7 Sonnet的表現尤為突出,能夠持續游戲90秒,并展現出更高級的策略,例如躲避敵人、尋找隱藏獎勵等,遠超OpenAI的GPT-4、GPT-4.0和谷歌的Gemini系列模型。GPT-4.0甚至在第一關就被擊敗,而Gemini 1.5和2.0則表現出簡單的重復性動作,例如“兩步一跳”。
其他游戲測試:更全面的評估
除了超級馬里奧,Hao AI Lab還對2048和方塊進行了測試。在2048游戲中,Claude 3.7的表現優于GPT-4.0,但在方塊中,Claude 3.7的表現則沒有詳細描述。這些測試結果進一步表明,游戲測試能夠提供更豐富、更直觀的AI能力評估。
游戲測試的未來
文章最后指出,游戲測試有望成為LLM評估的新標準,并引發了更多討論和探索。Anthropic的開發者也表達了對這一方法的肯定,認為將各種電子游戲都作為評估工具具有巨大潛力。未來,更多游戲和更先進的AI模型有望加入這一測試。
總而言之,文章認為,基于游戲的AI評估方法,能夠更全面地考察AI的智力水平,為AI發展提供更有效的評估手段,并預示著LLM評估領域的新篇章。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。