国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

突破常規(guī)：如何讓o1-preview在事實(shí)性基準(zhǔn)中脫穎而出

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

305 0 0

淘天算法技術(shù)團(tuán)隊(duì)發(fā)布首個(gè)簡(jiǎn)短事實(shí)問(wèn)答能力的中文評(píng)測(cè)集Chinese SimpleQA。

突破常規(guī)：如何讓o1-preview在事實(shí)性基準(zhǔn)中脫穎而出

原標(biāo)題：媲美OpenAI 事實(shí)性基準(zhǔn)，這個(gè)中文評(píng)測(cè)集讓o1-preview剛剛及格
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：7748字

Chinese SimpleQA：提升中文模型事實(shí)正確性的評(píng)測(cè)集

在人工智能（AI）領(lǐng)域，模型生成幻覺(jué)問(wèn)題一直是一個(gè)重要的挑戰(zhàn)。為了評(píng)估語(yǔ)言模型的事實(shí)正確性，OpenAI近期發(fā)布了名為SimpleQA的評(píng)測(cè)集。響應(yīng)這一需求，淘天集團(tuán)算法技術(shù) – 未來(lái)生活實(shí)驗(yàn)室團(tuán)隊(duì)推出了Chinese SimpleQA，這是首個(gè)系統(tǒng)性評(píng)估中文模型回答簡(jiǎn)短事實(shí)性問(wèn)題能力的評(píng)測(cè)集。本文將總結(jié)Chinese SimpleQA的主要特點(diǎn)、構(gòu)建過(guò)程及其評(píng)測(cè)結(jié)果。

1. Chinese SimpleQA的主要特點(diǎn)

Chinese SimpleQA具有以下六個(gè)顯著特點(diǎn)：

中文：專注于中文語(yǔ)言，包含中國(guó)文化等特色知識(shí)問(wèn)題。
全面性：涵蓋6個(gè)大類主題和99個(gè)子類主題。
高質(zhì)量：經(jīng)過(guò)嚴(yán)格的質(zhì)量控制，確保數(shù)據(jù)集的可信度。
靜態(tài)：參保持不變，保證評(píng)測(cè)的長(zhǎng)期有效性。
易于評(píng)估：?jiǎn)栴}和答案簡(jiǎn)短，便于進(jìn)行快速評(píng)測(cè)。
難度與區(qū)分度：通過(guò)嚴(yán)格篩選，確保樣本的挑戰(zhàn)性。

2. 數(shù)據(jù)集構(gòu)建流程

Chinese SimpleQA的數(shù)據(jù)集構(gòu)建分為自動(dòng)化構(gòu)建和質(zhì)量控制兩個(gè)階段。自動(dòng)化構(gòu)建包括知識(shí)內(nèi)容提取、問(wèn)答對(duì)生成、質(zhì)量驗(yàn)證和難度過(guò)濾等步驟。在質(zhì)量控制階段，確保數(shù)據(jù)經(jīng)過(guò)嚴(yán)格的人工標(biāo)注和復(fù)審，最終生成3000對(duì)高質(zhì)量問(wèn)答對(duì)。

3. 評(píng)測(cè)指標(biāo)與榜單

評(píng)測(cè)采用OpenAI的方法，主要包含四個(gè)指標(biāo)：正確率、未回答率、回答錯(cuò)誤率和回答精確率。評(píng)測(cè)結(jié)果顯示，o1-preview模型表現(xiàn)最佳，而許多小型模型的表現(xiàn)較差，尤其是在知識(shí)回答的準(zhǔn)確性上。

4. 實(shí)驗(yàn)發(fā)現(xiàn)與未來(lái)展望

通過(guò)Chinese SimpleQA，研究團(tuán)隊(duì)探索了推理scaling law、模型校準(zhǔn)和檢索增強(qiáng)生成（RAG）等領(lǐng)域。結(jié)果表明，更大的模型通常具有更好的校準(zhǔn)性能，而RAG策略能顯著提升模型的事實(shí)正確性。此外，許多模型在對(duì)齊訓(xùn)練后存在明顯的性能下降，反映出當(dāng)前對(duì)齊訓(xùn)練在幻覺(jué)緩解上的不足。

總之，Chinese SimpleQA為開(kāi)發(fā)者深入了解中文模型的事實(shí)正確性提供了重要工具，期待能助力中文基礎(chǔ)模型的進(jìn)一步發(fā)展。