大模型實時打《街霸》捉對PK，GPT-4居然不敵3.5，新型Benchmark火了

AIGC動態2年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：大模型實時打《街霸》捉對PK，GPT-4居然不敵3.5，新型Benchmark火了
關鍵字：模型,開發者,峰會,動作,測試
文章來源：量子位
內容字數：4151字

內容摘要：

夢晨發自凹非寺量子位 | 公眾號 QbitAI讓大模型直接操縱格斗游戲《街霸》里的角色，捉對PK，誰更能打？
GitHub上一種你沒有見過的船新Benchmark火了。
與llmsys大模型競技場中，兩個大模型分別輸出答案，再由人類評分不同——街霸Bench引入了兩個AI之間的交互，且由游戲引擎中確定的規則評判勝負。
這種新玩法吸引了不少網友來圍觀。
由于項目是在Mistral舉辦的黑客馬拉松活動上開發，所以開發者只使用OpenAI和Mistral系列模型進行了測試。
排名結果也很出人意料。
經過342場對戰后，根據棋類、電競常用的ELO算法得出的排行榜如下：
最新版gpt-3.5-turbo成績斷崖式領先，Mistral小杯排第二。更小的模型超過了更大的如GPT-4和Mistral中杯大杯。
開發者認為，這種新型基準測試評估的是大模型理解環境并根據特定情況采取行動的能力。
與傳統的強化學習也有所不同，強化學習模型相當于根據獎勵函數“盲目地”采取不同行動，但大模型完全了解自身處境并有目的的采取行動。
考驗AI的動態決策力AI想在格斗游戲里稱王，需要哪些硬實力呢？開發者給出幾個標準:

原文鏈接：大模型實時打《街霸》捉對PK，GPT-4居然不敵3.5，新型Benchmark火了

聯系作者

文章來源：量子位
作者微信：QbitAI
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # 動作 # 峰會 # 開發者 # 模型 # 測試

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

大模型實時打《街霸》捉對PK，GPT-4居然不敵3.5，新型Benchmark火了

AIGC動態歡迎閱讀

內容摘要：

聯系作者

機器狗首次陣亡！美國警方披露詳情

0門檻免費商用！孟子3-13B大模型正式開源，萬億token數據訓練

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

大模型實時打《街霸》捉對PK，GPT-4居然不敵3.5，新型Benchmark火了

AIGC動態歡迎閱讀

內容摘要：

聯系作者

機器狗首次陣亡！美國警方披露詳情

0門檻免費商用！孟子3-13B大模型正式開源，萬億token數據訓練

相關文章

暫無評論

ChatGPT

玩虛擬模特？

大模型實時打《街霸》捉對PK，GPT-4居然不敵3.5，新型Benchmark火了

0門檻免費商用！孟子3-13B大模型正式開源，萬億token數據訓練