國內(nèi)百模誰第一?清華14大LLM最新評測報告出爐,GLM-4、文心4.0站在第一梯隊
AIGC動態(tài)歡迎閱讀
原標(biāo)題:國內(nèi)百模誰第一?清華14大LLM最新評測報告出爐,GLM-4、文心4.0站在第一梯隊
關(guān)鍵字:模型,能力,代碼,中文,任務(wù)
文章來源:新智元
內(nèi)容字?jǐn)?shù):16750字
內(nèi)容摘要:
新智元報道編輯:編輯部
【新智元導(dǎo)讀】大模型混戰(zhàn)究竟誰才是實力選手?清華對國內(nèi)外14個LLM做了最全面的綜合能力測評,其中GPT-4、Cluade 3是當(dāng)之無愧的王牌,而在國內(nèi)GLM-4、文心4.0已然闖入了第一梯隊。在2023年的「百模大戰(zhàn)」中,眾多實踐者推出了各類模型,這些模型有的是原創(chuàng)的,有的是針對開源模型進(jìn)行微調(diào)的;有些是通用的,有些則是行業(yè)特定的。如何能合理地評價這些模型的能力,成為關(guān)鍵問題。
盡管國內(nèi)外存在多個模型能力評測榜單,但它們的質(zhì)量參差不齊,排名差異顯著,這主要是因為評測數(shù)據(jù)和測試方法尚不成熟和科學(xué)。我們認(rèn)為,好的評測方法應(yīng)當(dāng)具備開放性、動態(tài)性、科學(xué)性和權(quán)威性。
為提供客觀、科學(xué)的評測標(biāo)準(zhǔn),清華大學(xué)基礎(chǔ)模型研究中心聯(lián)合中關(guān)村實驗室研制了SuperBench大模型綜合能力評測框架,旨在推動大模型技術(shù)、應(yīng)用和生態(tài)的健康發(fā)展。
最近,2024年3月版《SuperBench大模型綜合能力評測報告》正式發(fā)布。
評測共包含了14個海內(nèi)外具有代表性的模型。其中,對于閉源模型,選取API和網(wǎng)頁兩種調(diào)用模式中得分較高的一種進(jìn)行評測。根據(jù)評測結(jié)果,可以得出以下幾個主要結(jié)論:● 整體來
原文鏈接:國內(nèi)百模誰第一?清華14大LLM最新評測報告出爐,GLM-4、文心4.0站在第一梯隊
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。