<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Meta推出劃時代的Multi-IF基準:涵蓋8種語言與4500+任務,開啟多輪挑戰新篇章!

        AIGC動態10個月前發布 新智元
        477 0 0

        Meta推出劃時代的Multi-IF基準:涵蓋8種語言與4500+任務,開啟多輪挑戰新篇章!

        原標題:指令跟隨拼!Meta發布多輪多語言基準Multi-IF:覆蓋8種語言,超4500種任務
        文章來源:新智元
        內容字數:6039字

        文章要點總結

        本文主要介紹了Meta發布的全新基準Multi-IF,旨在評估大語言模型(LLM)在多輪對話和多語言環境中的指令遵循能力。該基準涵蓋八種語言和4501個三輪對話任務,揭示了當前LLM在復雜多輪和多語言場景中的挑戰與局限性。

        1. Multi-IF基準的背景

        隨著大語言模型的發展,評估其在多輪對話和多語言環境中的表現變得尤為重要。現有評估標準多集中于單輪對話和單語言任務,難以全面反映模型在復雜場景中的能力。Meta的Multi-IF基準為研究人員提供了更具挑戰性的評估工具。

        2. 數據集構建

        Multi-IF數據集通過精細設計和篩選構建,涵蓋多輪和多語言任務。研究團隊首先基于單輪數據擴展為多輪指令,確保邏輯一致性和遞進性。隨后,通過自動翻譯和人工校對,將數據集從英語擴展至七種語言。

        3. 實驗結果

        Meta團隊對14種先進的LLM進行了評估,結果顯示o1-preview和Llama 3.1 405B模型表現最佳。在三輪指令的平均準確率上,o1-preview為78.9%,Llama 3.1 405B為78.1%。然而,所有模型在多輪對話中準確率隨著輪次增加顯著下降,尤其是在非拉丁文字的語言任務中表現較差。

        4. 指令遺忘與自我糾正

        研究引入了指令遺忘率(IFR)來量化模型在多輪對話中的指令遺忘現象。實驗表明,高性能模型的遺忘率相對較低。同時,o1-preview和o1-mini在錯誤自我修正方面表現突出,能夠在后續輪次中糾正約25%的未遵循指令。

        5. 多語言指令遵循能力

        實驗結果顯示,模型在多語言環境中的指令遵循能力存在顯著差異。英語的指令執行準確率普遍最高,而非拉丁文字語言的錯誤率明顯更高,表明當前模型在處理這些語言時仍存在局限性。

        6. 結論與未來方向

        Multi-IF基準揭示了當前LLM在多輪對話和多語言任務中的不足,尤其是準確率下降和指令遺忘的問題。研究結果為未來提升LLM的指令遵循能力提供了重要的參考和方向。


        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲av永久无码精品三区在线4| 在线日韩av永久免费观看| 亚洲精品456播放| 亚洲精品乱码久久久久久V | 每天更新的免费av片在线观看| 亚洲情侣偷拍精品| xxxx日本在线播放免费不卡| 亚洲精品成人区在线观看| 国产综合成人亚洲区| 亚洲А∨精品天堂在线| 九九视频高清视频免费观看| 亚洲欧洲日产国码无码久久99| 亚洲精品自在线拍| 亚洲国产成人久久精品软件| 国产成人免费a在线视频app| 亚洲高清视频在线播放| 国产免费久久久久久无码| 免费人成在线观看69式小视频| 亚洲免费在线观看视频| 性盈盈影院免费视频观看在线一区| 亚洲av无码专区国产不乱码| 国产a v无码专区亚洲av| 久久免费公开视频| 国产亚洲中文日本不卡二区| 久久免费观看国产精品88av| 亚洲乱码无限2021芒果| 免费人妻av无码专区| 2020亚洲男人天堂精品| 人与禽交免费网站视频| 亚洲AV成人无码网天堂| 亚洲人JIZZ日本人| 国产h视频在线观看免费| 亚洲欧洲校园自拍都市| 67194成手机免费观看| 亚洲日韩AV一区二区三区中文| 好男人www免费高清视频在线| 国产亚洲女在线线精品| 亚洲国产精品自在在线观看| 日韩视频在线免费观看| 人人玩人人添人人澡免费| 国产精品高清视亚洲一区二区|