AIGC動態歡迎閱讀
原標題:大模型測試題爆火,GPT-4和Claude3都跪了,LeCun轉發:新Benchmark
關鍵字:模型,騰訊,農夫,問題,狐貍
文章來源:量子位
內容字數:0字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI一項新的“大模型Benchmark”在上爆火,LeCun也點贊轉發了!
而且無論是GPT-4還是Claude 3,面對它都如同被奪了魂,無法給出正確答案。
難倒一眾大模型的,是邏輯學當中經典的“動物過河”問題,有網友發現,大模型對此類問題表現得很不擅長。
甚至有人觀察到,幾個不同的模型都給出了一致的(錯誤)答案,讓人懷疑他們是不是用了相同的訓練數據。
針對這項測試,網友還定義了一個新的名詞叫“劣效比率”(crapness ratio),讓LeCun打趣說到,一項新的“Benchmark”誕生了。
“模見模愁”的動物過河首先來看一下什么是“動物過河”問題,這是邏輯學當中的一道經典題目。
問題的原型是這樣的:
農夫需要把狼、羊和白菜都帶過河,但每次只能帶一樣物品,而且狼和羊不能單獨相處,羊和白菜也不能單獨相處,問農夫該如何過河。
在這個問題當中,農夫需要七次(往返視為兩次)過河——先把羊運過去,然后空船返回,再把狼運過河,帶回羊,然后運送白菜,再空船返回,最后運送羊。
而劣效比率的定義,就是模型給出的運送次數與實際最少所需次數的比值。
原文鏈接:大模型測試題爆火,GPT-4和Claude3都跪了,LeCun轉發:新Benchmark
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...