誰才是最強的？清華給海內外知名大模型做了場綜合能力評測

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：誰才是最強的？清華給海內外知名大模型做了場綜合能力評測
關鍵字：模型,報告,能力,代碼,中文
文章來源：機器之心
內容字數：14305字

內容摘要：

機器之心發布
機器之心編輯部在 2023 年的 “百模大戰” 中，眾多實踐者推出了各類模型，這些模型有的是原創的，有的是針對開源模型進行微調的；有些是通用的，有些則是行業特定的。如何能合理地評價這些模型的能力，成為關鍵問題。
盡管國內外存在多個模型能力評測榜單，但它們的質量參差不齊，排名差異顯著，這主要是因為評測數據和測試方法尚不成熟和科學，而好的評測方法應當具備開放性、動態性、科學性和權威性。
為提供客觀、科學的評測標準，清華大學基礎模型研究中心聯合中關村實驗室研制了 SuperBench 大模型綜合能力評測框架，旨在推動大模型技術、應用和生態的健康發展。
近期，二者發布了 2024 年 3 月的《SuperBench 大模型綜合能力評測報告》。在此評測中，報告選定了 14 個海內外具有代表性的模型進行測試。對于閉源模型，選取了 API 和網頁兩種調用模式中得分較高的一種進行評測。根據評測結果，報告得出以下幾個主要結論：
● 整體來說，GPT-4 系列模型和 Claude-3 等國外模型在多個能力上依然處于領先地位，國內頭部大模型 GLM-4 和文心一言 4.0 表現亮眼，與國際一流

原文鏈接：誰才是最強的？清華給海內外知名大模型做了場綜合能力評測