国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

全球百模爭霸，國產大模型拿下多個冠軍！智源FlagEval全球評測榜單出爐

AIGC動態1年前 (2024)發布新智元

全球百模爭霸，國產大模型拿下多個冠軍！智源FlagEval全球評測榜單出爐

原標題：全球百模爭霸，國產大模型拿下多個冠軍！智源FlagEval全球評測榜單出爐
文章來源：新智元
內容字數：5822字

智源研究院發布2024下半年大模型評測結果

1. **評測概述:** 智源研究院發布了2024年下半年大模型綜合評測結果，涵蓋100多個開源和閉源模型，評估范圍涵蓋文本、語音、圖像和視頻等多個領域。本次評測相比5月份的評估，在任務難度、評估維度和應用場景上都有顯著提升，新增了數據處理、高級編程、工具調用以及金融量化交易等方面的評估。

2. **語言模型評測:** 在語言模型主觀評測中，字節跳動Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo表現最佳；客觀評測中，OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest領先。總體而言，在一般中文場景下，模型能力趨于飽和，但在復雜場景下，國內頭部模型與國際一流水平仍存在差距。

3. **多模態模型評測:** 多模態模型發展迅速，視覺語言模型中，開源模型在圖文理解任務上正在縮小與閉源模型的差距；文生圖模型已具備中文文字生成能力，但復雜場景下的表現仍需提升；文生視頻模型的畫質和動態性有所提升，但仍存在動作變形、物理規律理解不足等問題。各個模態的領先模型分別為：視覺語言模型方面，OpenAI GPT-4o-2024-11-20和字節跳動Doubao-Pro-Vision-32k-241028領先；文生圖模型方面，騰訊Hunyuan Image位列第一；文生視頻模型方面，快手可靈1.5領先。

4. **語音語言模型評測:** 語音語言模型能力提升顯著，但與專業模型仍存在差距，高性能的開源模型相對較少。阿里巴巴Qwen2-Audio在專項評測中排名第一。

5. **K12學科測驗:** 智源研究院再次聯合海淀區教師進修學校進行K12學科測驗，模型綜合得分較半年前提升12.86%，但在部分學科上仍與人類學生存在差距，呈現出“文強理弱”的偏科現象。某些模型在英語和歷史科目上的表現甚至超越了人類考生的平均分。

6. **FlagEval平臺評測:** FlagEval大模型角斗場和FlagEval Debate平臺對模型進行了用戶偏好和辯論能力的評估。用戶更傾向于模型提供結構化、標準化的輸出；模型在辯論中普遍缺乏邏輯框架和論據支撐，更擅長反駁而非論證。

7. **金融量化交易評測:** 評測探索了大模型在金融量化交易領域的應用，發現頭部模型已具備生成有回撤收益的策略代碼的能力，部分模型能力接近初級量化交易員水平。

8. **FlagEval平臺迭代:** FlagEval平臺持續迭代，已覆蓋全球800多個開閉源模型，并不斷更新評測數據集和方法，以確保評測的科學性和權威性。智源研究院致力于打造一個公正、開放的大模型評測平臺，為大模型技術生態發展提供參考。