大模型測(cè)試題爆火,GPT-4和Claude3都跪了,LeCun轉(zhuǎn)發(fā):新Benchmark
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:大模型測(cè)試題爆火,GPT-4和Claude3都跪了,LeCun轉(zhuǎn)發(fā):新Benchmark
關(guān)鍵字:模型,騰訊,農(nóng)夫,問(wèn)題,狐貍
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI一項(xiàng)新的“大模型Benchmark”在上爆火,LeCun也點(diǎn)贊轉(zhuǎn)發(fā)了!
而且無(wú)論是GPT-4還是Claude 3,面對(duì)它都如同被奪了魂,無(wú)法給出正確答案。
難倒一眾大模型的,是邏輯學(xué)當(dāng)中經(jīng)典的“動(dòng)物過(guò)河”問(wèn)題,有網(wǎng)友發(fā)現(xiàn),大模型對(duì)此類(lèi)問(wèn)題表現(xiàn)得很不擅長(zhǎng)。
甚至有人觀察到,幾個(gè)不同的模型都給出了一致的(錯(cuò)誤)答案,讓人懷疑他們是不是用了相同的訓(xùn)練數(shù)據(jù)。
針對(duì)這項(xiàng)測(cè)試,網(wǎng)友還定義了一個(gè)新的名詞叫“劣效比率”(crapness ratio),讓LeCun打趣說(shuō)到,一項(xiàng)新的“Benchmark”誕生了。
“模見(jiàn)模愁”的動(dòng)物過(guò)河首先來(lái)看一下什么是“動(dòng)物過(guò)河”問(wèn)題,這是邏輯學(xué)當(dāng)中的一道經(jīng)典題目。
問(wèn)題的原型是這樣的:
農(nóng)夫需要把狼、羊和白菜都帶過(guò)河,但每次只能帶一樣物品,而且狼和羊不能單獨(dú)相處,羊和白菜也不能單獨(dú)相處,問(wèn)農(nóng)夫該如何過(guò)河。
在這個(gè)問(wèn)題當(dāng)中,農(nóng)夫需要七次(往返視為兩次)過(guò)河——先把羊運(yùn)過(guò)去,然后空船返回,再把狼運(yùn)過(guò)河,帶回羊,然后運(yùn)送白菜,再空船返回,最后運(yùn)送羊。
而劣效比率的定義,就是模型給出的運(yùn)送次數(shù)與實(shí)際最少所需次數(shù)的比值。
原文鏈接:大模型測(cè)試題爆火,GPT-4和Claude3都跪了,LeCun轉(zhuǎn)發(fā):新Benchmark
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破