Claude 3.7硬控馬里奧90秒，GPT-4o開局暴斃！Karpathy直呼基準失效，游戲成LLM新戰場

原標題：Claude 3.7硬控馬里奧90秒，GPT-4o開局暴斃！Karpathy直呼基準失效，游戲成LLM新戰場
文章來源：新智元
內容字數：3651字

近年來，大型語言模型（LLM）的評估標準一直備受爭議。Andrej Karpathy等AI專家也表達了對現有基準的擔憂，例如MMLU、SWE-Bench Verified和Chatbot Arena等，都存在各自的局限性。面對這一“評估危機”，一個新興的評估方向正悄然興起——游戲測試。

游戲測試：超越傳統基準
文章指出，經典游戲，如超級馬里奧和2048，正成為評估LLM智能體的新標桿。這源于游戲測試能夠更全面地評估AI的規劃能力、問題解決能力以及適應性等多方面能力，而這些能力是傳統文本基準難以完全捕捉的。
超級馬里奧：AI能力拼
加州大學圣迭戈分校Hao AI Lab開發的“游戲智能體” (CUA) 對多個LLM進行了超級馬里奧游戲測試。結果顯示，Claude 3.7 Sonnet的表現尤為突出，能夠持續游戲90秒，并展現出更高級的策略，例如躲避敵人、尋找隱藏獎勵等，遠超OpenAI的GPT-4、GPT-4.0和谷歌的Gemini系列模型。GPT-4.0甚至在第一關就被擊敗，而Gemini 1.5和2.0則表現出簡單的重復性動作，例如“兩步一跳”。
其他游戲測試：更全面的評估
除了超級馬里奧，Hao AI Lab還對2048和方塊進行了測試。在2048游戲中，Claude 3.7的表現優于GPT-4.0，但在方塊中，Claude 3.7的表現則沒有詳細描述。這些測試結果進一步表明，游戲測試能夠提供更豐富、更直觀的AI能力評估。
游戲測試的未來
文章最后指出，游戲測試有望成為LLM評估的新標準，并引發了更多討論和探索。Anthropic的開發者也表達了對這一方法的肯定，認為將各種電子游戲都作為評估工具具有巨大潛力。未來，更多游戲和更先進的AI模型有望加入這一測試。

總而言之，文章認為，基于游戲的AI評估方法，能夠更全面地考察AI的智力水平，為AI發展提供更有效的評估手段，并預示著LLM評估領域的新篇章。

聯系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...