“最強開源模型”被打假，CEO下場致歉，英偉達科學家：現有測試基準已經不靠譜了

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：“最強開源模型”被打假，CEO下場致歉，英偉達科學家：現有測試基準已經不靠譜了
關鍵字：報告,模型,表示,成績,測試
文章來源：量子位
內容字數：0字

內容摘要：

克雷西發自凹非寺量子位 | 公眾號 QbitAI小型創業團隊打造的“最強開源模型”，發布才一周就被質疑造假——
不僅官方宣稱的成績在第三方測試中大打折扣，模型還被質疑套殼Claude。
面對浩大的聲浪，廠商CEO終于發文道歉，但并未承認造假，表示在調查有關原因。
被指控造假的，就是宣稱“干翻GPT-4o”的70B開源大模型Reflection。
一開始的質疑主要關于測試成績，官方找了上傳版本有誤等借口試圖“蒙混過關”。
但后來又出現了套殼Claude這一更重磅的指控，讓Reflection更加百口莫辯。
表現不如宣傳，還被質疑套殼Reflection是一個70B的開源模型，按照廠商的說法，它一下子把Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro這一系列先進模型全都超過了。
但Reflection剛發布兩天，第三方測評機構Artificial Analysis就表示官方發布的測試成績無法復現。
在MMLU、GPQA和MATH上，Reflection的成績和Llama3 70B一樣，連Llama 3.1-70B都比不過，更不用說

原文鏈接：“最強開源模型”被打假，CEO下場致歉，英偉達科學家：現有測試基準已經不靠譜了

聯系作者

文章來源：量子位
作者微信：
作者簡介：

閱讀原文

# AIGC動態 # 成績 # 報告 # 模型 # 測試 # 表示

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

“最強開源模型”被打假，CEO下場致歉，英偉達科學家：現有測試基準已經不靠譜了

AIGC動態歡迎閱讀

內容摘要：

聯系作者

OpenAI 發布最強模型 o1 ！打破 AI 瓶頸開啟新時代，GPT-5 可能永遠不會來了

實測 | GPT-o1：學會了思考，也學會了偷懶

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

“最強開源模型”被打假，CEO下場致歉，英偉達科學家：現有測試基準已經不靠譜了

AIGC動態歡迎閱讀

內容摘要：

聯系作者

OpenAI 發布最強模型 o1 ！打破 AI 瓶頸開啟新時代，GPT-5 可能永遠不會來了

實測 | GPT-o1：學會了思考，也學會了偷懶

相關文章

暫無評論

ChatGPT

玩虛擬模特？

“最強開源模型”被打假，CEO下場致歉，英偉達科學家：現有測試基準已經不靠譜了

OpenAI 發布最強模型 o1 ！打破 AI 瓶頸開啟新時代，GPT-5 可能永遠不會來了

玩虛擬模特？