智源研究院發布2024下半年大模型評測結果
1. **評測概述:** 智源研究院發布了2024年下半年大模型綜合評測結果,涵蓋100多個開源和閉源模型,評估范圍涵蓋文本、語音、圖像和視頻等多個領域。本次評測相比5月份的評估,在任務難度、評估維度和應用場景上都有顯著提升,新增了數據處理、高級編程、工具調用以及金融量化交易等方面的評估。
2. **語言模型評測:** 在語言模型主觀評測中,字節跳動Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo表現最佳;客觀評測中,OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest領先。總體而言,在一般中文場景下,模型能力趨于飽和,但在復雜場景下,國內頭部模型與國際一流水平仍存在差距。
3. **多模態模型評測:** 多模態模型發展迅速,視覺語言模型中,開源模型在圖文理解任務上正在縮小與閉源模型的差距;文生圖模型已具備中文文字生成能力,但復雜場景下的表現仍需提升;文生視頻模型的畫質和動態性有所提升,但仍存在動作變形、物理規律理解不足等問題。各個模態的領先模型分別為:視覺語言模型方面,OpenAI GPT-4o-2024-11-20和字節跳動Doubao-Pro-Vision-32k-241028領先;文生圖模型方面,騰訊Hunyuan Image位列第一;文生視頻模型方面,快手可靈1.5領先。
4. **語音語言模型評測:** 語音語言模型能力提升顯著,但與專業模型仍存在差距,高性能的開源模型相對較少。阿里巴巴Qwen2-Audio在專項評測中排名第一。
5. **K12學科測驗:** 智源研究院再次聯合海淀區教師進修學校進行K12學科測驗,模型綜合得分較半年前提升12.86%,但在部分學科上仍與人類學生存在差距,呈現出“文強理弱”的偏科現象。某些模型在英語和歷史科目上的表現甚至超越了人類考生的平均分。
6. **FlagEval平臺評測:** FlagEval大模型角斗場和FlagEval Debate平臺對模型進行了用戶偏好和辯論能力的評估。用戶更傾向于模型提供結構化、標準化的輸出;模型在辯論中普遍缺乏邏輯框架和論據支撐,更擅長反駁而非論證。
7. **金融量化交易評測:** 評測探索了大模型在金融量化交易領域的應用,發現頭部模型已具備生成有回撤收益的策略代碼的能力,部分模型能力接近初級量化交易員水平。
8. **FlagEval平臺迭代:** FlagEval平臺持續迭代,已覆蓋全球800多個開閉源模型,并不斷更新評測數據集和方法,以確保評測的科學性和權威性。 智源研究院致力于打造一個公正、開放的大模型評測平臺,為大模型技術生態發展提供參考。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。