AIGC動態歡迎閱讀
原標題:AI在《我的世界》PK蓋樓,新舊Claude差距過于明顯,網友:審美也是智力的一種
關鍵字:模型,世界,測試,指令,創意
文章來源:量子位
內容字數:0字
內容摘要:
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI測評大模型Agent能力,從未如此直觀。
新舊兩版Claude 3.5 Sonnet在《我的世界》里PK蓋樓,差距不要太明顯,引來大量圍觀。
如果讓AI不斷迭代,甚至能蓋出一片建筑群。
為了避免Claude團隊糟糕的命名方式造成混淆,下面跟隨adi暫且把“新版Claude 3.5 Sonnet”稱為“Sonnet 3.6”。
作者adi戲稱其為目前“唯一可靠的評測基準”。
Aidan Bench作者Aidan McLau認為評測基準界正需要這個,審美也與智力顯著相關。
他甚至愿意提供資金,把這個項目擴展成完整的評測。
總之在開源社區幫助下,代碼迅速上架GitHub,更多模型測試結果陸續出爐中。
比如以慢思考著稱的OpenAI o1系列,o1-preivew確實蓋的更慢,但結構也更完整。o1-mini則無法勝任這個任務。
最終在人類喜好評估(2000+網友投票)中,Sonnet 3.6小贏了一手創意性。
如果不比創意比模仿真實建筑泰姬陵,o1-preview就占很大優勢了。
照這個趨勢下去,這款經典游戲很快就要從《別人的世界》變成《AI的
原文鏈接:AI在《我的世界》PK蓋樓,新舊Claude差距過于明顯,網友:審美也是智力的一種
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...