懸賞800萬的超難測試集,被GPT-4o實現(xiàn)新SOTA,準確率已達50%

AIGC動態(tài)歡迎閱讀
原標題:懸賞800萬的超難測試集,被GPT-4o實現(xiàn)新SOTA,準確率已達50%
關(guān)鍵字:程序,模型,準確率,網(wǎng)格,測試
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAIGTP-4o挑戰(zhàn)懸賞八百萬的超難數(shù)據(jù)集,實現(xiàn)SOTA!
數(shù)據(jù)集當(dāng)中包含了各種類型的圖形推理題目,被挑戰(zhàn)發(fā)起者預(yù)言“大模型很難完成”。
結(jié)果短短一周之內(nèi),這一挑戰(zhàn)就被一位博主Ryan Greenblatt完成了一半,準確率達50%;而此前的SOTA僅為34%。
針對自己的成果,Ryan發(fā)了一個表情包表示:
只要有更多的樣本,大模型的能力就能獲得提升。
成果發(fā)布后,Ryan所在機構(gòu)CEO Bucket Shlegeris稱贊他是世界級的語言模型推理專家,用了很多精致技巧讓模型的表現(xiàn)提高到了這樣的程度。
要知道,挑戰(zhàn)的發(fā)起方此前開出了最高50萬美元(約360萬人民幣)、總計110萬美元(約798萬人民幣)的巨額賞金。
但有人預(yù)計,有60%的概率在未來一年內(nèi)就會有人獲得獎項,甚至現(xiàn)有的模型加上一些提示技巧就能實現(xiàn)。
這也與Ryan的想法不謀而合,不過Ryan估計的概率更高些,是70%。
然而按照規(guī)則,想得獎的話,方法必須是開源的,而Ryan用的是GPT,所以可能與獎金無緣了。
不過,Ryan用到的的方法,還是值得我們了解一下的。
讓GPT編寫
原文鏈接:懸賞800萬的超難測試集,被GPT-4o實現(xiàn)新SOTA,準確率已達50%
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號