大模型測試題爆火，GPT-4和Claude3都跪了，LeCun轉發：新Benchmark

AIGC動態2年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：大模型測試題爆火，GPT-4和Claude3都跪了，LeCun轉發：新Benchmark
關鍵字：模型,騰訊,農夫,問題,狐貍
文章來源：量子位
內容字數：0字

內容摘要：

克雷西發自凹非寺量子位 | 公眾號 QbitAI一項新的“大模型Benchmark”在上爆火，LeCun也點贊轉發了！
而且無論是GPT-4還是Claude 3，面對它都如同被奪了魂，無法給出正確答案。
難倒一眾大模型的，是邏輯學當中經典的“動物過河”問題，有網友發現，大模型對此類問題表現得很不擅長。
甚至有人觀察到，幾個不同的模型都給出了一致的（錯誤）答案，讓人懷疑他們是不是用了相同的訓練數據。
針對這項測試，網友還定義了一個新的名詞叫“劣效比率”（crapness ratio），讓LeCun打趣說到，一項新的“Benchmark”誕生了。
“模見模愁”的動物過河首先來看一下什么是“動物過河”問題，這是邏輯學當中的一道經典題目。
問題的原型是這樣的：
農夫需要把狼、羊和白菜都帶過河，但每次只能帶一樣物品，而且狼和羊不能單獨相處，羊和白菜也不能單獨相處，問農夫該如何過河。
在這個問題當中，農夫需要七次（往返視為兩次）過河——先把羊運過去，然后空船返回，再把狼運過河，帶回羊，然后運送白菜，再空船返回，最后運送羊。
而劣效比率的定義，就是模型給出的運送次數與實際最少所需次數的比值。

原文鏈接：大模型測試題爆火，GPT-4和Claude3都跪了，LeCun轉發：新Benchmark