智源一次性發(fā)布超 100 個大模型評測結(jié)果,文本到視頻等多模態(tài)領域全覆蓋
12 月 19 日,智源研究院發(fā)布并解讀國內(nèi)外 100 余個開源和商業(yè)閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項評測結(jié)果。
原標題:智源一次性發(fā)布超 100 個大模型評測結(jié)果,文本到視頻等多模態(tài)領域全覆蓋
文章來源:AI前線
內(nèi)容字數(shù):6483字
智源研究院大模型評測結(jié)果解讀:綜合能力提升與實際應用成焦點
1. **評測概述:** 智源研究院發(fā)布了對100多個開源和閉源大模型的綜合評測結(jié)果,涵蓋語言、視覺語言、文生圖、文生視頻、語音語言等多種模態(tài)。評測不僅擴展了任務類型,還首次引入了金融量化交易場景評估和基于模型辯論的對比評估方式,對模型能力進行了更全面、細致的考察。
2. **大模型發(fā)展趨勢:** 2024年下半年,大模型發(fā)展呈現(xiàn)出向綜合能力提升和實際應用方向聚焦的趨勢。多模態(tài)模型發(fā)展迅速,涌現(xiàn)出許多新廠商和新模型,而語言模型發(fā)展相對放緩。開源生態(tài)也更加活躍,出現(xiàn)了新的開源貢獻者。用戶對模型的響應速度和輸出結(jié)構化程度要求更高。
3. **語言模型評測:** 在中文場景下,語言模型的開放式問答和生成任務能力趨于飽和,但在復雜場景任務方面,國內(nèi)頭部模型與國際一流水平仍存在差距。主觀評測中,字節(jié)跳動Doubao-pro和百度ERNIE 4.0 Turbo表現(xiàn)領先;客觀評測中,OpenAI o1-mini和Google Gemini-1.5-pro表現(xiàn)突出。
4. **多模態(tài)模型評測:**
4.1 **視覺語言模型:** 開源模型在圖文理解任務上正在追趕閉源模型,但在長尾視覺知識、文字識別和復雜圖文數(shù)據(jù)分析方面仍有提升空間。OpenAI GPT-4o和字節(jié)跳動Doubao-Pro-Vision表現(xiàn)領先。
4.2 **文生圖模型:** 頭部模型已具備中文文字生成能力,但復雜場景人物變形問題依然存在。數(shù)量關系推理能力有所提升,但對中國文化和古詩詞的理解仍是挑戰(zhàn)。騰訊Hunyuan Image位列第一。
4.3 **文生視頻模型:** 畫質(zhì)、動態(tài)性和鏡頭語言都有提升,但動作變形、物理規(guī)律理解不足等問題依然存在。快手可靈1.5表現(xiàn)領先。
4.4 **語音語言模型:** 得益于文本大模型的進步,能力顯著提升,但與專業(yè)模型仍存在差距。阿里巴巴Qwen2-Audio表現(xiàn)最佳。
5. **FlagEval平臺評測:** 智源研究院的FlagEval大模型角斗場和FlagEval Debate平臺對模型進行了用戶偏好和邏輯推理能力的評估。用戶更傾向于快速響應和結(jié)構化輸出。在模型辯論中,模型普遍缺乏辯論框架意識和邏輯嚴謹性,Anthropic Claude-3-5-sonnet表現(xiàn)最佳。
6. **金融量化交易評測:** 評測發(fā)現(xiàn)大模型已能生成具有收益的量化交易策略代碼,頭部模型能力接近初級量化交易員水平。深度求索Deepseek-chat表現(xiàn)領先。
7. **K12學科評測:** 大模型在K12學科測驗中的綜合得分較半年前提升,部分模型在英語和歷史科目上超越了人類考生平均分,但“文強理弱”的偏科現(xiàn)象依然存在。
8. **評測平臺:** 智源研究院的FlagEval平臺已覆蓋800多個模型,包含20多種任務和90多個數(shù)據(jù)集,并持續(xù)更新評測數(shù)據(jù)和提升題目難度,以應對數(shù)據(jù)集泄露和飽和度問題。
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發(fā)者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業(yè)界實踐案例,助你全面擁抱AIGC。