
AIGC動態歡迎閱讀
原標題:“最強開源模型”被打假,CEO下場致歉,英偉達科學家:現有測試基準已經不靠譜了
關鍵字:報告,模型,表示,成績,測試
文章來源:量子位
內容字數:0字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI小型創業團隊打造的“最強開源模型”,發布才一周就被質疑造假——
不僅官方宣稱的成績在第三方測試中大打折扣,模型還被質疑套殼Claude。
面對浩大的聲浪,廠商CEO終于發文道歉,但并未承認造假,表示在調查有關原因。
被指控造假的,就是宣稱“干翻GPT-4o”的70B開源大模型Reflection。
一開始的質疑主要關于測試成績,官方找了上傳版本有誤等借口試圖“蒙混過關”。
但后來又出現了套殼Claude這一更重磅的指控,讓Reflection更加百口莫辯。
表現不如宣傳,還被質疑套殼Reflection是一個70B的開源模型,按照廠商的說法,它一下子把Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro這一系列先進模型全都超過了。
但Reflection剛發布兩天,第三方測評機構Artificial Analysis就表示官方發布的測試成績無法復現。
在MMLU、GPQA和MATH上,Reflection的成績和Llama3 70B一樣,連Llama 3.1-70B都比不過,更不用說
原文鏈接:“最強開源模型”被打假,CEO下場致歉,英偉達科學家:現有測試基準已經不靠譜了
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號