<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        全球百模爭霸,國產大模型拿下多個冠軍!智源FlagEval全球評測榜單出爐

        AIGC動態9個月前發布 新智元
        329 0 0

        全球百模爭霸,國產大模型拿下多個冠軍!智源FlagEval全球評測榜單出爐

        原標題:全球百模爭霸國產大模型拿下多個冠軍!智源FlagEval全球評測榜單出爐
        文章來源:新智元
        內容字數:5822字

        智源研究院發布2024下半年大模型評測結果

        1. **評測概述:** 智源研究院發布了2024年下半年大模型綜合評測結果,涵蓋100多個開源和閉源模型,評估范圍涵蓋文本、語音、圖像和視頻等多個領域。本次評測相比5月份的評估,在任務難度、評估維度和應用場景上都有顯著提升,新增了數據處理、高級編程、工具調用以及金融量化交易等方面的評估。

        2. **語言模型評測:** 在語言模型主觀評測中,字節跳動Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo表現最佳;客觀評測中,OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest領先。總體而言,在一般中文場景下,模型能力趨于飽和,但在復雜場景下,國內頭部模型與國際一流水平仍存在差距。

        3. **多模態模型評測:** 多模態模型發展迅速,視覺語言模型中,開源模型在圖文理解任務上正在縮小與閉源模型的差距;文生圖模型已具備中文文字生成能力,但復雜場景下的表現仍需提升;文生視頻模型的畫質和動態性有所提升,但仍存在動作變形、物理規律理解不足等問題。各個模態的領先模型分別為:視覺語言模型方面,OpenAI GPT-4o-2024-11-20和字節跳動Doubao-Pro-Vision-32k-241028領先;文生圖模型方面,騰訊Hunyuan Image位列第一;文生視頻模型方面,快手可靈1.5領先。

        4. **語音語言模型評測:** 語音語言模型能力提升顯著,但與專業模型仍存在差距,高性能的開源模型相對較少。阿里巴巴Qwen2-Audio在專項評測中排名第一。

        5. **K12學科測驗:** 智源研究院再次聯合海淀區教師進修學校進行K12學科測驗,模型綜合得分較半年前提升12.86%,但在部分學科上仍與人類學生存在差距,呈現出“文強理弱”的偏科現象。某些模型在英語和歷史科目上的表現甚至超越了人類考生的平均分。

        6. **FlagEval平臺評測:** FlagEval大模型角斗場和FlagEval Debate平臺對模型進行了用戶偏好和辯論能力的評估。用戶更傾向于模型提供結構化、標準化的輸出;模型在辯論中普遍缺乏邏輯框架和論據支撐,更擅長反駁而非論證。

        7. **金融量化交易評測:** 評測探索了大模型在金融量化交易領域的應用,發現頭部模型已具備生成有回撤收益的策略代碼的能力,部分模型能力接近初級量化交易員水平。

        8. **FlagEval平臺迭代:** FlagEval平臺持續迭代,已覆蓋全球800多個開閉源模型,并不斷更新評測數據集和方法,以確保評測的科學性和權威性。 智源研究院致力于打造一個公正、開放的大模型評測平臺,為大模型技術生態發展提供參考。


        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 免费国产高清毛不卡片基地| 亚洲国产综合91精品麻豆| 激情五月亚洲色图| 亚洲三级高清免费| 亚洲一区在线观看视频| 美丽的姑娘免费观看在线播放 | 美女隐私免费视频看| 国产亚洲福利一区二区免费看| 精品一区二区三区免费视频| 亚洲国产专区一区| 国产永久免费高清在线| 亚洲国产精品无码久久久蜜芽 | 国产妇乱子伦视频免费| 亚洲精品二三区伊人久久| 女人张开腿给人桶免费视频| 亚洲av日韩专区在线观看| 国产成人免费AV在线播放| 国产AV无码专区亚洲AV毛网站| 国产精成人品日日拍夜夜免费| 久久精品国产亚洲AV无码偷窥| 亚洲免费电影网站| 亚洲国产成人无码AV在线| 免费国产一级特黄久久| 97国免费在线视频| 亚洲伊人久久大香线蕉在观| 91在线免费观看| 亚洲免费人成视频观看| 一区二区三区亚洲视频| 久久精品免费观看| 四虎亚洲精品高清在线观看| 亚洲第一黄片大全| 免费看片在线观看| 直接进入免费看黄的网站| 午夜亚洲www湿好大| 麻豆国产精品入口免费观看| 大妹子影视剧在线观看全集免费| 亚洲经典在线观看| 亚洲高清最新av网站| 桃子视频在线观看高清免费完整| 黄色免费在线观看网址| 亚洲午夜在线一区|