原標題:指令跟隨拼!Meta發布多輪多語言基準Multi-IF:覆蓋8種語言,超4500種任務
文章來源:新智元
內容字數:6039字
文章要點總結
本文主要介紹了Meta發布的全新基準Multi-IF,旨在評估大語言模型(LLM)在多輪對話和多語言環境中的指令遵循能力。該基準涵蓋八種語言和4501個三輪對話任務,揭示了當前LLM在復雜多輪和多語言場景中的挑戰與局限性。
1. Multi-IF基準的背景
隨著大語言模型的發展,評估其在多輪對話和多語言環境中的表現變得尤為重要。現有評估標準多集中于單輪對話和單語言任務,難以全面反映模型在復雜場景中的能力。Meta的Multi-IF基準為研究人員提供了更具挑戰性的評估工具。
2. 數據集構建
Multi-IF數據集通過精細設計和篩選構建,涵蓋多輪和多語言任務。研究團隊首先基于單輪數據擴展為多輪指令,確保邏輯一致性和遞進性。隨后,通過自動翻譯和人工校對,將數據集從英語擴展至七種語言。
3. 實驗結果
Meta團隊對14種先進的LLM進行了評估,結果顯示o1-preview和Llama 3.1 405B模型表現最佳。在三輪指令的平均準確率上,o1-preview為78.9%,Llama 3.1 405B為78.1%。然而,所有模型在多輪對話中準確率隨著輪次增加顯著下降,尤其是在非拉丁文字的語言任務中表現較差。
4. 指令遺忘與自我糾正
研究引入了指令遺忘率(IFR)來量化模型在多輪對話中的指令遺忘現象。實驗表明,高性能模型的遺忘率相對較低。同時,o1-preview和o1-mini在錯誤自我修正方面表現突出,能夠在后續輪次中糾正約25%的未遵循指令。
5. 多語言指令遵循能力
實驗結果顯示,模型在多語言環境中的指令遵循能力存在顯著差異。英語的指令執行準確率普遍最高,而非拉丁文字語言的錯誤率明顯更高,表明當前模型在處理這些語言時仍存在局限性。
6. 結論與未來方向
Multi-IF基準揭示了當前LLM在多輪對話和多語言任務中的不足,尤其是準確率下降和指令遺忘的問題。研究結果為未來提升LLM的指令遵循能力提供了重要的參考和方向。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。