AIGC動態歡迎閱讀
原標題:大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark火了
關鍵字:模型,開發者,峰會,動作,測試
文章來源:量子位
內容字數:4151字
內容摘要:
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI讓大模型直接操縱格斗游戲《街霸》里的角色,捉對PK,誰更能打?
GitHub上一種你沒有見過的船新Benchmark火了。
與llmsys大模型競技場中,兩個大模型分別輸出答案,再由人類評分不同——街霸Bench引入了兩個AI之間的交互,且由游戲引擎中確定的規則評判勝負。
這種新玩法吸引了不少網友來圍觀。
由于項目是在Mistral舉辦的黑客馬拉松活動上開發,所以開發者只使用OpenAI和Mistral系列模型進行了測試。
排名結果也很出人意料。
經過342場對戰后,根據棋類、電競常用的ELO算法得出的排行榜如下:
最新版gpt-3.5-turbo成績斷崖式領先,Mistral小杯排第二。更小的模型超過了更大的如GPT-4和Mistral中杯大杯。
開發者認為,這種新型基準測試評估的是大模型理解環境并根據特定情況采取行動的能力。
與傳統的強化學習也有所不同,強化學習模型相當于根據獎勵函數“盲目地”采取不同行動,但大模型完全了解自身處境并有目的的采取行動。
考驗AI的動態決策力AI想在格斗游戲里稱王,需要哪些硬實力呢?開發者給出幾個標準:
原文鏈接:大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark火了
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...