12 月 19 日,智源研究院發布并解讀國內外 100 余個開源和商業閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項評測結果。
原標題:智源一次性發布超 100 個大模型評測結果,文本到視頻等多模態領域全覆蓋
文章來源:AI前線
內容字數:6483字
智源研究院大模型評測結果解讀:綜合能力提升與實際應用成焦點
1. **評測概述:** 智源研究院發布了對100多個開源和閉源大模型的綜合評測結果,涵蓋語言、視覺語言、文生圖、文生視頻、語音語言等多種模態。評測不僅擴展了任務類型,還首次引入了金融量化交易場景評估和基于模型辯論的對比評估方式,對模型能力進行了更全面、細致的考察。
2. **大模型發展趨勢:** 2024年下半年,大模型發展呈現出向綜合能力提升和實際應用方向聚焦的趨勢。多模態模型發展迅速,涌現出許多新廠商和新模型,而語言模型發展相對放緩。開源生態也更加活躍,出現了新的開源貢獻者。用戶對模型的響應速度和輸出結構化程度要求更高。
3. **語言模型評測:** 在中文場景下,語言模型的開放式問答和生成任務能力趨于飽和,但在復雜場景任務方面,國內頭部模型與國際一流水平仍存在差距。主觀評測中,字節跳動Doubao-pro和百度ERNIE 4.0 Turbo表現領先;客觀評測中,OpenAI o1-mini和Google Gemini-1.5-pro表現突出。
4. **多模態模型評測:**
4.1 **視覺語言模型:** 開源模型在圖文理解任務上正在追趕閉源模型,但在長尾視覺知識、文字識別和復雜圖文數據分析方面仍有提升空間。OpenAI GPT-4o和字節跳動Doubao-Pro-Vision表現領先。
4.2 **文生圖模型:** 頭部模型已具備中文文字生成能力,但復雜場景人物變形問題依然存在。數量關系推理能力有所提升,但對中國文化和古詩詞的理解仍是挑戰。騰訊Hunyuan Image位列第一。
4.3 **文生視頻模型:** 畫質、動態性和鏡頭語言都有提升,但動作變形、物理規律理解不足等問題依然存在。快手可靈1.5表現領先。
4.4 **語音語言模型:** 得益于文本大模型的進步,能力顯著提升,但與專業模型仍存在差距。阿里巴巴Qwen2-Audio表現最佳。
5. **FlagEval平臺評測:** 智源研究院的FlagEval大模型角斗場和FlagEval Debate平臺對模型進行了用戶偏好和邏輯推理能力的評估。用戶更傾向于快速響應和結構化輸出。在模型辯論中,模型普遍缺乏辯論框架意識和邏輯嚴謹性,Anthropic Claude-3-5-sonnet表現最佳。
6. **金融量化交易評測:** 評測發現大模型已能生成具有收益的量化交易策略代碼,頭部模型能力接近初級量化交易員水平。深度求索Deepseek-chat表現領先。
7. **K12學科評測:** 大模型在K12學科測驗中的綜合得分較半年前提升,部分模型在英語和歷史科目上超越了人類考生平均分,但“文強理弱”的偏科現象依然存在。
8. **評測平臺:** 智源研究院的FlagEval平臺已覆蓋800多個模型,包含20多種任務和90多個數據集,并持續更新評測數據和提升題目難度,以應對數據集泄露和飽和度問題。
聯系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。