國內(nèi)外140+大模型、8萬+考題測評結(jié)果出爐!智源評測體系出品
AIGC動態(tài)歡迎閱讀
原標題:國內(nèi)外140+大模型、8萬+考題測評結(jié)果出爐!智源評測體系出品
關(guān)鍵字:模型,解讀,字節(jié)跳動,騰訊,能力
文章來源:量子位
內(nèi)容字數(shù):5138字
內(nèi)容摘要:
允中 發(fā)自 凹非寺量子位 | 公眾號 QbitAI2024年5月17日,智源研究院舉辦大模型評測發(fā)布會,正式推出科學、權(quán)威、公正、開放的智源評測體系,發(fā)布并解讀國內(nèi)外140余個開源和商業(yè)閉源的語言及多模態(tài)大模型全方位能力評測結(jié)果。
本次智源評測,分別從主觀、客觀兩個維度考察了語言模型的簡單理解、知識運用、推理能力、數(shù)學能力、代碼能力、任務(wù)解決、安全與價值觀七大能力;針對多模態(tài)模型則主要評估了多模態(tài)理解和生成能力。
在中文語境下,國內(nèi)頭部語言模型的綜合表現(xiàn)已接近國際一流水平,但存在能力發(fā)展不均衡的情況。在多模態(tài)理解圖文問答任務(wù)上,開閉源模型平分秋色,國產(chǎn)模型表現(xiàn)突出。國產(chǎn)多模態(tài)模型在中文語境下的文生圖能力與國際一流水平差距較小。多模態(tài)模型的文生視頻能力上,對比各家公布的演示視頻長度和質(zhì)量,Sora有明顯優(yōu)勢,其他開放評測的文生視頻模型中,國產(chǎn)模型PixVerse表現(xiàn)優(yōu)異。
由于安全與價值觀對齊是模型產(chǎn)業(yè)落地的關(guān)鍵,但海外模型與國內(nèi)模型在該維度存在差異,因此語言模型主客觀評測的總體排名不計入該單項分數(shù)。語言模型主觀評測結(jié)果顯示,在中文語境下,字節(jié)跳動豆包Skylark2、OpenAI GP
原文鏈接:國內(nèi)外140+大模型、8萬+考題測評結(jié)果出爐!智源評測體系出品
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破