評測全面升級,多維度探索模型能力邊界與應用潛能。
智源研究院發布2024年大模型評測結果
2024年12月19日,智源研究院發布了針對國內外100余個開源與商業閉源大模型的綜合評測結果。此次評測相較于今年5月的評估,擴展了任務解決能力的內涵,新增了數據處理、高級編程和工具調用等能力評估,并首次涉及真實金融量化交易場景的應用能力。
1. 評測的主要內容
智源評測強調了語言、視覺語言、文生圖、文生視頻和語音語言模型的能力提升,特別是在多模態模型方面,新的廠商和模型涌現。評測發現,盡管中文開放式問答和生成任務的能力趨于穩定,復雜場景任務中,國內模型仍顯著落后于國際頂尖水平。
2. 語言模型的排名
在主觀評測中,字節跳動的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo分別位居第一和第二。客觀評測方面,OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest排名前兩位。整體來看,語言模型的能力有顯著提升,但在復雜場景中仍需改進。
3. 多模態模型的表現
視覺語言多模態模型雖在圖文理解任務上表現好,但仍面臨長尾視覺知識和復雜圖文數據分析能力不足的問題。文生圖模型在生成中文文字方面有所進步,但在處理復雜場景時仍存在變形等問題。文生視頻模型在畫質和動態性上有所提升,但也面臨物體消失和穿模等問題。
4. 語音模型的進展
語音語言模型的能力得益于文本大模型的進步,雖然整體性能有所提升,但在具體任務上仍與專家模型存在差距。阿里巴巴的Qwen2-Audio在專項評測中排名第一。
5. K12學科測驗與用戶偏好
智源研究院聯合海淀區教師進修學校進行了K12學科測驗,模型的綜合得分較半年前提升了12.86%。此外,FlagEval平臺的推出使得用戶能夠對不同模型進行評測,結果顯示用戶對模型響應時間及輸出內容的標準化有更高的要求。
6. 未來展望
智源研究院表示,未來將繼續探索動態評測與多任務能力評估體系,以進一步感知大模型的發展趨勢。此次評測為大模型技術生態的發展提供了重要的洞察,助力行業的進步。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺