AI在《我的世界》PK蓋樓，新舊Claude差距過于明顯，網友：審美也是智力的一種

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：AI在《我的世界》PK蓋樓，新舊Claude差距過于明顯，網友：審美也是智力的一種
關鍵字：模型,世界,測試,指令,創意
文章來源：量子位
內容字數：0字

內容摘要：

夢晨發自凹非寺量子位 | 公眾號 QbitAI測評大模型Agent能力，從未如此直觀。
新舊兩版Claude 3.5 Sonnet在《我的世界》里PK蓋樓，差距不要太明顯，引來大量圍觀。
如果讓AI不斷迭代，甚至能蓋出一片建筑群。
為了避免Claude團隊糟糕的命名方式造成混淆，下面跟隨adi暫且把“新版Claude 3.5 Sonnet”稱為“Sonnet 3.6”。
作者adi戲稱其為目前“唯一可靠的評測基準”。
Aidan Bench作者Aidan McLau認為評測基準界正需要這個，審美也與智力顯著相關。
他甚至愿意提供資金，把這個項目擴展成完整的評測。
總之在開源社區幫助下，代碼迅速上架GitHub，更多模型測試結果陸續出爐中。
比如以慢思考著稱的OpenAI o1系列，o1-preivew確實蓋的更慢，但結構也更完整。o1-mini則無法勝任這個任務。
最終在人類喜好評估（2000+網友投票）中，Sonnet 3.6小贏了一手創意性。
如果不比創意比模仿真實建筑泰姬陵，o1-preview就占很大優勢了。
照這個趨勢下去，這款經典游戲很快就要從《別人的世界》變成《AI的

原文鏈接：AI在《我的世界》PK蓋樓，新舊Claude差距過于明顯，網友：審美也是智力的一種