突破常規(guī):如何讓o1-preview在事實(shí)性基準(zhǔn)中脫穎而出
淘天算法技術(shù)團(tuán)隊(duì)發(fā)布首個(gè)簡短事實(shí)問答能力的中文評測集Chinese SimpleQA。
原標(biāo)題:媲美OpenAI事實(shí)性基準(zhǔn),這個(gè)中文評測集讓o1-preview剛剛及格
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7748字
Chinese SimpleQA:提升中文模型事實(shí)正確性的評測集
在人工智能(AI)領(lǐng)域,模型生成幻覺問題一直是一個(gè)重要的挑戰(zhàn)。為了評估語言模型的事實(shí)正確性,OpenAI近期發(fā)布了名為SimpleQA的評測集。響應(yīng)這一需求,淘天集團(tuán)算法技術(shù) – 未來生活實(shí)驗(yàn)室團(tuán)隊(duì)推出了Chinese SimpleQA,這是首個(gè)系統(tǒng)性評估中文模型回答簡短事實(shí)性問題能力的評測集。本文將總結(jié)Chinese SimpleQA的主要特點(diǎn)、構(gòu)建過程及其評測結(jié)果。
1. Chinese SimpleQA的主要特點(diǎn)
Chinese SimpleQA具有以下六個(gè)顯著特點(diǎn):
- 中文:專注于中文語言,包含中國文化等特色知識問題。
- 全面性:涵蓋6個(gè)大類主題和99個(gè)子類主題。
- 高質(zhì)量:經(jīng)過嚴(yán)格的質(zhì)量控制,確保數(shù)據(jù)集的可信度。
- 靜態(tài):參保持不變,保證評測的長期有效性。
- 易于評估:問題和答案簡短,便于進(jìn)行快速評測。
- 難度與區(qū)分度:通過嚴(yán)格篩選,確保樣本的挑戰(zhàn)性。
2. 數(shù)據(jù)集構(gòu)建流程
Chinese SimpleQA的數(shù)據(jù)集構(gòu)建分為自動(dòng)化構(gòu)建和質(zhì)量控制兩個(gè)階段。自動(dòng)化構(gòu)建包括知識內(nèi)容提取、問答對生成、質(zhì)量驗(yàn)證和難度過濾等步驟。在質(zhì)量控制階段,確保數(shù)據(jù)經(jīng)過嚴(yán)格的人工標(biāo)注和復(fù)審,最終生成3000對高質(zhì)量問答對。
3. 評測指標(biāo)與榜單
評測采用OpenAI的方法,主要包含四個(gè)指標(biāo):正確率、未回答率、回答錯(cuò)誤率和回答精確率。評測結(jié)果顯示,o1-preview模型表現(xiàn)最佳,而許多小型模型的表現(xiàn)較差,尤其是在知識回答的準(zhǔn)確性上。
4. 實(shí)驗(yàn)發(fā)現(xiàn)與未來展望
通過Chinese SimpleQA,研究團(tuán)隊(duì)探索了推理scaling law、模型校準(zhǔn)和檢索增強(qiáng)生成(RAG)等領(lǐng)域。結(jié)果表明,更大的模型通常具有更好的校準(zhǔn)性能,而RAG策略能顯著提升模型的事實(shí)正確性。此外,許多模型在對齊訓(xùn)練后存在明顯的性能下降,反映出當(dāng)前對齊訓(xùn)練在幻覺緩解上的不足。
總之,Chinese SimpleQA為開發(fā)者深入了解中文模型的事實(shí)正確性提供了重要工具,期待能助力中文基礎(chǔ)模型的進(jìn)一步發(fā)展。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺