“最強開源模型”被打假,CEO下場致歉,英偉達科學(xué)家:現(xiàn)有測試基準(zhǔn)已經(jīng)不靠譜了
AIGC動態(tài)歡迎閱讀
原標(biāo)題:“最強開源模型”被打假,CEO下場致歉,英偉達科學(xué)家:現(xiàn)有測試基準(zhǔn)已經(jīng)不靠譜了
關(guān)鍵字:報告,模型,表示,成績,測試
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI小型創(chuàng)業(yè)團隊打造的“最強開源模型”,發(fā)布才一周就被質(zhì)疑造假——
不僅官方宣稱的成績在第三方測試中大打折扣,模型還被質(zhì)疑套殼Claude。
面對浩大的聲浪,廠商CEO終于發(fā)文道歉,但并未承認造假,表示在調(diào)查有關(guān)原因。
被指控造假的,就是宣稱“干翻GPT-4o”的70B開源大模型Reflection。
一開始的質(zhì)疑主要關(guān)于測試成績,官方找了上傳版本有誤等借口試圖“蒙混過關(guān)”。
但后來又出現(xiàn)了套殼Claude這一更重磅的指控,讓Reflection更加百口莫辯。
表現(xiàn)不如宣傳,還被質(zhì)疑套殼Reflection是一個70B的開源模型,按照廠商的說法,它一下子把Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro這一系列先進模型全都超過了。
但Reflection剛發(fā)布兩天,第三方測評機構(gòu)Artificial Analysis就表示官方發(fā)布的測試成績無法復(fù)現(xiàn)。
在MMLU、GPQA和MATH上,Reflection的成績和Llama3 70B一樣,連Llama 3.1-70B都比不過,更不用說
原文鏈接:“最強開源模型”被打假,CEO下場致歉,英偉達科學(xué)家:現(xiàn)有測試基準(zhǔn)已經(jīng)不靠譜了
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: