智源FlagEval「百模」評測：模型生態新紀元的變革之路

評測全面升級，多維度探索模型能力邊界與應用潛能。

原標題：智源發布FlagEval「百模」評測結果，丈量模型生態變局
文章來源：機器之心
內容字數：5780字

智源研究院發布2024年大模型評測結果

2024年12月19日，智源研究院發布了針對國內外100余個開源與商業閉源大模型的綜合評測結果。此次評測相較于今年5月的評估，擴展了任務解決能力的內涵，新增了數據處理、高級編程和工具調用等能力評估，并首次涉及真實金融量化交易場景的應用能力。

1. 評測的主要內容

智源評測強調了語言、視覺語言、文生圖、文生視頻和語音語言模型的能力提升，特別是在多模態模型方面，新的廠商和模型涌現。評測發現，盡管中文開放式問答和生成任務的能力趨于穩定，復雜場景任務中，國內模型仍顯著落后于國際頂尖水平。

2. 語言模型的排名

在主觀評測中，字節跳動的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo分別位居第一和第二。客觀評測方面，OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest排名前兩位。整體來看，語言模型的能力有顯著提升，但在復雜場景中仍需改進。

3. 多模態模型的表現

視覺語言多模態模型雖在圖文理解任務上表現好，但仍面臨長尾視覺知識和復雜圖文數據分析能力不足的問題。文生圖模型在生成中文文字方面有所進步，但在處理復雜場景時仍存在變形等問題。文生視頻模型在畫質和動態性上有所提升，但也面臨物體消失和穿模等問題。

4. 語音模型的進展

語音語言模型的能力得益于文本大模型的進步，雖然整體性能有所提升，但在具體任務上仍與專家模型存在差距。阿里巴巴的Qwen2-Audio在專項評測中排名第一。

5. K12學科測驗與用戶偏好

智源研究院聯合海淀區教師進修學校進行了K12學科測驗，模型的綜合得分較半年前提升了12.86%。此外，FlagEval平臺的推出使得用戶能夠對不同模型進行評測，結果顯示用戶對模型響應時間及輸出內容的標準化有更高的要求。

6. 未來展望

智源研究院表示，未來將繼續探索動態評測與多任務能力評估體系，以進一步感知大模型的發展趨勢。此次評測為大模型技術生態的發展提供了重要的洞察，助力行業的進步。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # 人工智能行業 # 智源發布 # 模型生態 # 百模評測 # 評測結果

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

智源FlagEval「百模」評測：模型生態新紀元的變革之路

評測全面升級，多維度探索模型能力邊界與應用潛能。

智源研究院發布2024年大模型評測結果

1. 評測的主要內容

2. 語言模型的排名

3. 多模態模型的表現

4. 語音模型的進展

5. K12學科測驗與用戶偏好

6. 未來展望

聯系作者

Meta斯坦福全新多模態Apollo，60分鐘視頻輕松理解！7B性能超越30B

顛覆未來：普渡機器人如何破解具身智能商業化的終極難題

相關文章

暫無評論

ChatGPT

玩虛擬模特？