Meta推出劃時代的Multi-IF基準：涵蓋8種語言與4500+任務，開啟多輪挑戰新篇章！

AIGC動態6個月前發布新智元

473 0 0

原標題：指令跟隨拼！Meta發布多輪多語言基準Multi-IF：覆蓋8種語言，超4500種任務
文章來源：新智元
內容字數：6039字

文章要點總結

本文主要介紹了Meta發布的全新基準Multi-IF，旨在評估大語言模型（LLM）在多輪對話和多語言環境中的指令遵循能力。該基準涵蓋八種語言和4501個三輪對話任務，揭示了當前LLM在復雜多輪和多語言場景中的挑戰與局限性。

1. Multi-IF基準的背景

隨著大語言模型的發展，評估其在多輪對話和多語言環境中的表現變得尤為重要。現有評估標準多集中于單輪對話和單語言任務，難以全面反映模型在復雜場景中的能力。Meta的Multi-IF基準為研究人員提供了更具挑戰性的評估工具。

2. 數據集構建

Multi-IF數據集通過精細設計和篩選構建，涵蓋多輪和多語言任務。研究團隊首先基于單輪數據擴展為多輪指令，確保邏輯一致性和遞進性。隨后，通過自動翻譯和人工校對，將數據集從英語擴展至七種語言。

3. 實驗結果

Meta團隊對14種先進的LLM進行了評估，結果顯示o1-preview和Llama 3.1 405B模型表現最佳。在三輪指令的平均準確率上，o1-preview為78.9%，Llama 3.1 405B為78.1%。然而，所有模型在多輪對話中準確率隨著輪次增加顯著下降，尤其是在非拉丁文字的語言任務中表現較差。

4. 指令遺忘與自我糾正

研究引入了指令遺忘率（IFR）來量化模型在多輪對話中的指令遺忘現象。實驗表明，高性能模型的遺忘率相對較低。同時，o1-preview和o1-mini在錯誤自我修正方面表現突出，能夠在后續輪次中糾正約25%的未遵循指令。

5. 多語言指令遵循能力

實驗結果顯示，模型在多語言環境中的指令遵循能力存在顯著差異。英語的指令執行準確率普遍最高，而非拉丁文字語言的錯誤率明顯更高，表明當前模型在處理這些語言時仍存在局限性。

6. 結論與未來方向

Multi-IF基準揭示了當前LLM在多輪對話和多語言任務中的不足，尤其是準確率下降和指令遺忘的問題。研究結果為未來提升LLM的指令遵循能力提供了重要的參考和方向。

聯系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

閱讀原文

# AIGC動態 # Meta技術 # 人工智能評測 # 任務覆蓋 # 多語言基準 # 多輪對話

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

Meta推出劃時代的Multi-IF基準：涵蓋8種語言與4500+任務，開啟多輪挑戰新篇章！

文章要點總結

1. Multi-IF基準的背景

2. 數據集構建

3. 實驗結果

4. 指令遺忘與自我糾正

5. 多語言指令遵循能力

6. 結論與未來方向

聯系作者

MEET2025盛會：李開復、周志華與豆包通義齊聚，未來科技領袖論道！

科技與情感的交匯：黃仁勛與沈向洋暢談Scaling Law與未來機器人之愛

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點