AIGC動態歡迎閱讀
原標題:懸賞800萬的超難測試集,被GPT-4o實現新SOTA,準確率已達50%
關鍵字:程序,模型,準確率,網格,測試
文章來源:量子位
內容字數:0字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAIGTP-4o挑戰懸賞八百萬的超難數據集,實現SOTA!
數據集當中包含了各種類型的圖形推理題目,被挑戰發起者預言“大模型很難完成”。
結果短短一周之內,這一挑戰就被一位博主Ryan Greenblatt完成了一半,準確率達50%;而此前的SOTA僅為34%。
針對自己的成果,Ryan發了一個表情包表示:
只要有更多的樣本,大模型的能力就能獲得提升。
成果發布后,Ryan所在機構CEO Bucket Shlegeris稱贊他是世界級的語言模型推理專家,用了很多精致技巧讓模型的表現提高到了這樣的程度。
要知道,挑戰的發起方此前開出了最高50萬美元(約360萬人民幣)、總計110萬美元(約798萬人民幣)的巨額賞金。
但有人預計,有60%的概率在未來一年內就會有人獲得獎項,甚至現有的模型加上一些提示技巧就能實現。
這也與Ryan的想法不謀而合,不過Ryan估計的概率更高些,是70%。
然而按照規則,想得獎的話,方法必須是開源的,而Ryan用的是GPT,所以可能與獎金無緣了。
不過,Ryan用到的的方法,還是值得我們了解一下的。
讓GPT編寫
原文鏈接:懸賞800萬的超難測試集,被GPT-4o實現新SOTA,準確率已達50%
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...