淘天算法技術團隊發布首個簡短事實問答能力的中文評測集Chinese SimpleQA。
原標題:媲美OpenAI事實性基準,這個中文評測集讓o1-preview剛剛及格
文章來源:機器之心
內容字數:7748字
Chinese SimpleQA:提升中文模型事實正確性的評測集
在人工智能(AI)領域,模型生成幻覺問題一直是一個重要的挑戰。為了評估語言模型的事實正確性,OpenAI近期發布了名為SimpleQA的評測集。響應這一需求,淘天集團算法技術 – 未來生活實驗室團隊推出了Chinese SimpleQA,這是首個系統性評估中文模型回答簡短事實性問題能力的評測集。本文將總結Chinese SimpleQA的主要特點、構建過程及其評測結果。
1. Chinese SimpleQA的主要特點
Chinese SimpleQA具有以下六個顯著特點:
- 中文:專注于中文語言,包含中國文化等特色知識問題。
- 全面性:涵蓋6個大類主題和99個子類主題。
- 高質量:經過嚴格的質量控制,確保數據集的可信度。
- 靜態:參保持不變,保證評測的長期有效性。
- 易于評估:問題和答案簡短,便于進行快速評測。
- 難度與區分度:通過嚴格篩選,確保樣本的挑戰性。
2. 數據集構建流程
Chinese SimpleQA的數據集構建分為自動化構建和質量控制兩個階段。自動化構建包括知識內容提取、問答對生成、質量驗證和難度過濾等步驟。在質量控制階段,確保數據經過嚴格的人工標注和復審,最終生成3000對高質量問答對。
3. 評測指標與榜單
評測采用OpenAI的方法,主要包含四個指標:正確率、未回答率、回答錯誤率和回答精確率。評測結果顯示,o1-preview模型表現最佳,而許多小型模型的表現較差,尤其是在知識回答的準確性上。
4. 實驗發現與未來展望
通過Chinese SimpleQA,研究團隊探索了推理scaling law、模型校準和檢索增強生成(RAG)等領域。結果表明,更大的模型通常具有更好的校準性能,而RAG策略能顯著提升模型的事實正確性。此外,許多模型在對齊訓練后存在明顯的性能下降,反映出當前對齊訓練在幻覺緩解上的不足。
總之,Chinese SimpleQA為開發者深入了解中文模型的事實正確性提供了重要工具,期待能助力中文基礎模型的進一步發展。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...