智源發布FlagEval「百模」評測結果，丈量模型生態變局

評測全面升級，多維度探索模型能力邊界與應用潛能。

原標題：智源發布FlagEval「百模」評測結果，丈量模型生態變局
文章來源：機器之心
內容字數：5780字

智源研究院發布2024年下半年大模型評測結果

智源研究院于2024年12月19日發布了對100多個開源和閉源大模型的綜合評測結果，該評測涵蓋語言、視覺語言、文生圖、文生視頻以及語音語言模型等多個領域。相較于今年5月的評測，本次評測在任務類型、評測維度上進行了顯著擴展和細化。

1. 評測范圍與重點

本次評測新增了數據處理、高級編程和工具調用等能力評估，首次引入面向真實金融量化交易場景的應用能力評估，并首次探索基于模型辯論的對比評估方式。評測結果顯示，2024年下半年大模型發展更聚焦綜合能力提升與實際應用，多模態模型發展迅速，而語言模型發展相對放緩。

2. 語言模型評測結果

在語言模型主觀評測中，字節跳動Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo表現最佳；客觀評測中，OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest排名靠前。雖然在一般中文場景下模型能力趨于飽和，但在復雜場景任務中，國內頭部語言模型與國際一流水平仍存在差距。

3. 多模態模型評測結果

視覺語言多模態模型方面，開源模型在圖文理解任務上正在縮小與閉源模型的差距，但長尾視覺知識和復雜圖文數據分析能力仍需提升。OpenAI GPT-4o-2024-11-20和字節跳動Doubao-Pro-Vision-32k-241028表現領先。文生圖模型已具備中文文字生成能力，但在復雜場景下仍存在人物變形等問題。騰訊Hunyuan Image排名第一。文生視頻模型畫質和動態性提升顯著，但仍存在動作變形、違反物理規律等問題。快手可靈1.5排名靠前。

4. 語音語言模型評測結果

語音語言模型能力提升顯著，但與專業模型仍存在差距，性能好、通用能力強的開源模型較少。阿里巴巴Qwen2-Audio排名第一。

5. K12學科測驗及用戶偏好

智源研究院聯合海淀區教師進修學校對大模型進行了K12學科測驗，結果顯示模型綜合得分較半年前提升，但在某些學科上仍落后于人類學生。用戶偏好評測（FlagEval）顯示，用戶更注重模型響應速度和輸出結構化程度。

6. 模型辯論評測

模型辯論評測（FlagEval Debate）顯示，大模型普遍缺乏辯論框架意識，容易出現“幻覺”問題。Anthropic Claude-3-5-sonnet-20241022表現最佳。

7. 金融量化交易評測

金融量化交易評測顯示，大模型已具備生成量化交易策略代碼的能力，頭部模型能力接近初級量化交易員水平。深度求索Deepseek-chat排名第一。

8. FlagEval平臺迭代

智源研究院的FlagEval大模型評測平臺已覆蓋全球800多個模型，并持續迭代更新評測數據和方法，以保證評測的科學性和權威性。

總而言之，智源研究院的此次評測結果為大模型發展提供了重要的參考，也指明了未來大模型發展方向——提升綜合能力、拓展實際應用，以及解決模型的“幻覺”等問題。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # FlagEval評測結果 # 大模型評測 # 智源研究院 # 模型生態變局 # 長尾能力評估

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

智源發布FlagEval「百模」評測結果，丈量模型生態變局

評測全面升級，多維度探索模型能力邊界與應用潛能。

智源研究院發布2024年下半年大模型評測結果

1. 評測范圍與重點

2. 語言模型評測結果

3. 多模態模型評測結果

4. 語音語言模型評測結果

5. K12學科測驗及用戶偏好

6. 模型辯論評測

7. 金融量化交易評測

8. FlagEval平臺迭代

聯系作者

Meta斯坦福全新多模態Apollo，60分鐘視頻輕松理解！7B性能超越30B

顛覆未來：普渡機器人如何破解具身智能商業化的終極難題

相關文章

暫無評論

ChatGPT

玩虛擬模特？