<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Meta推出劃時代的Multi-IF基準:涵蓋8種語言與4500+任務,開啟多輪挑戰新篇章!

        AIGC動態6個月前發布 新智元
        473 0 0

        Meta推出劃時代的Multi-IF基準:涵蓋8種語言與4500+任務,開啟多輪挑戰新篇章!

        原標題:指令跟隨拼!Meta發布多輪多語言基準Multi-IF:覆蓋8種語言,超4500種任務
        文章來源:新智元
        內容字數:6039字

        文章要點總結

        本文主要介紹了Meta發布的全新基準Multi-IF,旨在評估大語言模型(LLM)在多輪對話和多語言環境中的指令遵循能力。該基準涵蓋八種語言和4501個三輪對話任務,揭示了當前LLM在復雜多輪和多語言場景中的挑戰與局限性。

        1. Multi-IF基準的背景

        隨著大語言模型的發展,評估其在多輪對話和多語言環境中的表現變得尤為重要。現有評估標準多集中于單輪對話和單語言任務,難以全面反映模型在復雜場景中的能力。Meta的Multi-IF基準為研究人員提供了更具挑戰性的評估工具。

        2. 數據集構建

        Multi-IF數據集通過精細設計和篩選構建,涵蓋多輪和多語言任務。研究團隊首先基于單輪數據擴展為多輪指令,確保邏輯一致性和遞進性。隨后,通過自動翻譯和人工校對,將數據集從英語擴展至七種語言。

        3. 實驗結果

        Meta團隊對14種先進的LLM進行了評估,結果顯示o1-preview和Llama 3.1 405B模型表現最佳。在三輪指令的平均準確率上,o1-preview為78.9%,Llama 3.1 405B為78.1%。然而,所有模型在多輪對話中準確率隨著輪次增加顯著下降,尤其是在非拉丁文字的語言任務中表現較差。

        4. 指令遺忘與自我糾正

        研究引入了指令遺忘率(IFR)來量化模型在多輪對話中的指令遺忘現象。實驗表明,高性能模型的遺忘率相對較低。同時,o1-preview和o1-mini在錯誤自我修正方面表現突出,能夠在后續輪次中糾正約25%的未遵循指令。

        5. 多語言指令遵循能力

        實驗結果顯示,模型在多語言環境中的指令遵循能力存在顯著差異。英語的指令執行準確率普遍最高,而非拉丁文字語言的錯誤率明顯更高,表明當前模型在處理這些語言時仍存在局限性。

        6. 結論與未來方向

        Multi-IF基準揭示了當前LLM在多輪對話和多語言任務中的不足,尤其是準確率下降和指令遺忘的問題。研究結果為未來提升LLM的指令遵循能力提供了重要的參考和方向。


        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 免费人成在线观看播放a| 57pao一国产成永久免费| 亚洲AV无码专区国产乱码电影 | 免费无码毛片一区二区APP| 亚洲人成网站日本片| 亚洲国产成人久久一区久久| 97公开免费视频| 在线观看亚洲免费| 亚洲国产天堂在线观看| 在线免费观看视频你懂的| 一道本不卡免费视频| 亚洲三级视频在线观看| 亚洲一级特黄大片在线观看| 野花高清在线观看免费3中文 | 免费一级毛片一级毛片aa| 亚洲视频免费在线观看| 国产精品亚洲片在线花蝴蝶| 久久亚洲AV午夜福利精品一区| 在线观看国产情趣免费视频| 日本免费一区二区三区四区五六区| 亚洲aⅴ无码专区在线观看| 亚洲国产精品一区二区久久| 亚洲av高清在线观看一区二区| 四虎精品视频在线永久免费观看| 一区二区三区免费视频播放器| 亚洲小说区图片区| 亚洲精品狼友在线播放| 国产免费观看黄AV片| 国产大片91精品免费观看不卡| 亚洲免费无码在线| 亚洲色成人WWW永久在线观看| 久久精品亚洲日本佐佐木明希| 国产精品免费视频一区| 免费下载成人电影| 免费av片在线观看网站| 黄色免费网站在线看| 亚洲乱码在线卡一卡二卡新区| 亚洲avav天堂av在线不卡| 超清首页国产亚洲丝袜| 国产免费69成人精品视频| 一个人看www在线高清免费看 |