突破常規(guī):如何讓o1-preview在事實(shí)性基準(zhǔn)中脫穎而出
淘天算法技術(shù)團(tuán)隊(duì)發(fā)布首個(gè)簡(jiǎn)短事實(shí)問(wèn)答能力的中文評(píng)測(cè)集Chinese SimpleQA。

原標(biāo)題:媲美OpenAI事實(shí)性基準(zhǔn),這個(gè)中文評(píng)測(cè)集讓o1-preview剛剛及格
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7748字
Chinese SimpleQA:提升中文模型事實(shí)正確性的評(píng)測(cè)集
在人工智能(AI)領(lǐng)域,模型生成幻覺(jué)問(wèn)題一直是一個(gè)重要的挑戰(zhàn)。為了評(píng)估語(yǔ)言模型的事實(shí)正確性,OpenAI近期發(fā)布了名為SimpleQA的評(píng)測(cè)集。響應(yīng)這一需求,淘天集團(tuán)算法技術(shù) – 未來(lái)生活實(shí)驗(yàn)室團(tuán)隊(duì)推出了Chinese SimpleQA,這是首個(gè)系統(tǒng)性評(píng)估中文模型回答簡(jiǎn)短事實(shí)性問(wèn)題能力的評(píng)測(cè)集。本文將總結(jié)Chinese SimpleQA的主要特點(diǎn)、構(gòu)建過(guò)程及其評(píng)測(cè)結(jié)果。
1. Chinese SimpleQA的主要特點(diǎn)
Chinese SimpleQA具有以下六個(gè)顯著特點(diǎn):
- 中文:專注于中文語(yǔ)言,包含中國(guó)文化等特色知識(shí)問(wèn)題。
- 全面性:涵蓋6個(gè)大類主題和99個(gè)子類主題。
- 高質(zhì)量:經(jīng)過(guò)嚴(yán)格的質(zhì)量控制,確保數(shù)據(jù)集的可信度。
- 靜態(tài):參保持不變,保證評(píng)測(cè)的長(zhǎng)期有效性。
- 易于評(píng)估:?jiǎn)栴}和答案簡(jiǎn)短,便于進(jìn)行快速評(píng)測(cè)。
- 難度與區(qū)分度:通過(guò)嚴(yán)格篩選,確保樣本的挑戰(zhàn)性。
2. 數(shù)據(jù)集構(gòu)建流程
Chinese SimpleQA的數(shù)據(jù)集構(gòu)建分為自動(dòng)化構(gòu)建和質(zhì)量控制兩個(gè)階段。自動(dòng)化構(gòu)建包括知識(shí)內(nèi)容提取、問(wèn)答對(duì)生成、質(zhì)量驗(yàn)證和難度過(guò)濾等步驟。在質(zhì)量控制階段,確保數(shù)據(jù)經(jīng)過(guò)嚴(yán)格的人工標(biāo)注和復(fù)審,最終生成3000對(duì)高質(zhì)量問(wèn)答對(duì)。
3. 評(píng)測(cè)指標(biāo)與榜單
評(píng)測(cè)采用OpenAI的方法,主要包含四個(gè)指標(biāo):正確率、未回答率、回答錯(cuò)誤率和回答精確率。評(píng)測(cè)結(jié)果顯示,o1-preview模型表現(xiàn)最佳,而許多小型模型的表現(xiàn)較差,尤其是在知識(shí)回答的準(zhǔn)確性上。
4. 實(shí)驗(yàn)發(fā)現(xiàn)與未來(lái)展望
通過(guò)Chinese SimpleQA,研究團(tuán)隊(duì)探索了推理scaling law、模型校準(zhǔn)和檢索增強(qiáng)生成(RAG)等領(lǐng)域。結(jié)果表明,更大的模型通常具有更好的校準(zhǔn)性能,而RAG策略能顯著提升模型的事實(shí)正確性。此外,許多模型在對(duì)齊訓(xùn)練后存在明顯的性能下降,反映出當(dāng)前對(duì)齊訓(xùn)練在幻覺(jué)緩解上的不足。
總之,Chinese SimpleQA為開(kāi)發(fā)者深入了解中文模型的事實(shí)正確性提供了重要工具,期待能助力中文基礎(chǔ)模型的進(jìn)一步發(fā)展。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)