國內百模誰第一？清華14大LLM最新評測報告出爐，GLM-4、文心4.0站在第一梯隊

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：國內百模誰第一？清華14大LLM最新評測報告出爐，GLM-4、文心4.0站在第一梯隊
關鍵字：模型,能力,代碼,中文,任務
文章來源：新智元
內容字數：16750字

內容摘要：

新智元報道編輯：編輯部
【新智元導讀】大模型混戰究竟誰才是實力選手？清華對國內外14個LLM做了最全面的綜合能力測評，其中GPT-4、Cluade 3是當之無愧的王牌，而在國內GLM-4、文心4.0已然闖入了第一梯隊。在2023年的「百模大戰」中，眾多實踐者推出了各類模型，這些模型有的是原創的，有的是針對開源模型進行微調的；有些是通用的，有些則是行業特定的。如何能合理地評價這些模型的能力，成為關鍵問題。
盡管國內外存在多個模型能力評測榜單，但它們的質量參差不齊，排名差異顯著，這主要是因為評測數據和測試方法尚不成熟和科學。我們認為，好的評測方法應當具備開放性、動態性、科學性和權威性。
為提供客觀、科學的評測標準，清華大學基礎模型研究中心聯合中關村實驗室研制了SuperBench大模型綜合能力評測框架，旨在推動大模型技術、應用和生態的健康發展。
最近，2024年3月版《SuperBench大模型綜合能力評測報告》正式發布。
評測共包含了14個海內外具有代表性的模型。其中，對于閉源模型，選取API和網頁兩種調用模式中得分較高的一種進行評測。根據評測結果，可以得出以下幾個主要結論：● 整體來

原文鏈接：國內百模誰第一？清華14大LLM最新評測報告出爐，GLM-4、文心4.0站在第一梯隊