國內外140+大模型、8萬+考題測評結果出爐！智源評測體系出品

AIGC動態2年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：國內外140+大模型、8萬+考題測評結果出爐！智源評測體系出品
關鍵字：模型,解讀,字節跳動,騰訊,能力
文章來源：量子位
內容字數：5138字

內容摘要：

允中發自凹非寺量子位 | 公眾號 QbitAI2024年5月17日，智源研究院舉辦大模型評測發布會，正式推出科學、權威、公正、開放的智源評測體系，發布并解讀國內外140余個開源和商業閉源的語言及多模態大模型全方位能力評測結果。
本次智源評測，分別從主觀、客觀兩個維度考察了語言模型的簡單理解、知識運用、推理能力、數學能力、代碼能力、任務解決、安全與價值觀七大能力；針對多模態模型則主要評估了多模態理解和生成能力。
在中文語境下，國內頭部語言模型的綜合表現已接近國際一流水平，但存在能力發展不均衡的情況。在多模態理解圖文問答任務上，開閉源模型平分秋色，國產模型表現突出。國產多模態模型在中文語境下的文生圖能力與國際一流水平差距較小。多模態模型的文生視頻能力上，對比各家公布的演示視頻長度和質量，Sora有明顯優勢，其他開放評測的文生視頻模型中，國產模型PixVerse表現優異。
由于安全與價值觀對齊是模型產業落地的關鍵，但海外模型與國內模型在該維度存在差異，因此語言模型主客觀評測的總體排名不計入該單項分數。語言模型主觀評測結果顯示，在中文語境下，字節跳動豆包Skylark2、OpenAI GP

原文鏈接：國內外140+大模型、8萬+考題測評結果出爐！智源評測體系出品