<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        突破常規(guī):如何讓o1-preview在事實(shí)性基準(zhǔn)中脫穎而出

        AIGC動(dòng)態(tài)10個(gè)月前發(fā)布 機(jī)器之心
        305 0 0

        淘天算法技術(shù)團(tuán)隊(duì)發(fā)布首個(gè)簡短事實(shí)問答能力的中文評測集Chinese SimpleQA。

        突破常規(guī):如何讓o1-preview在事實(shí)性基準(zhǔn)中脫穎而出

        原標(biāo)題:媲美OpenAI事實(shí)性基準(zhǔn),這個(gè)中文評測集讓o1-preview剛剛及格
        文章來源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):7748字

        Chinese SimpleQA:提升中文模型事實(shí)正確性的評測集

        在人工智能(AI)領(lǐng)域,模型生成幻覺問題一直是一個(gè)重要的挑戰(zhàn)。為了評估語言模型的事實(shí)正確性,OpenAI近期發(fā)布了名為SimpleQA的評測集。響應(yīng)這一需求,淘天集團(tuán)算法技術(shù) – 未來生活實(shí)驗(yàn)室團(tuán)隊(duì)推出了Chinese SimpleQA,這是首個(gè)系統(tǒng)性評估中文模型回答簡短事實(shí)性問題能力的評測集。本文將總結(jié)Chinese SimpleQA的主要特點(diǎn)、構(gòu)建過程及其評測結(jié)果。

        1. Chinese SimpleQA的主要特點(diǎn)

        Chinese SimpleQA具有以下六個(gè)顯著特點(diǎn):

        • 中文:專注于中文語言,包含中國文化等特色知識問題。
        • 全面性:涵蓋6個(gè)大類主題和99個(gè)子類主題。
        • 高質(zhì)量:經(jīng)過嚴(yán)格的質(zhì)量控制,確保數(shù)據(jù)集的可信度。
        • 靜態(tài):參保持不變,保證評測的長期有效性。
        • 易于評估:問題和答案簡短,便于進(jìn)行快速評測。
        • 難度與區(qū)分度:通過嚴(yán)格篩選,確保樣本的挑戰(zhàn)性。

        2. 數(shù)據(jù)集構(gòu)建流程

        Chinese SimpleQA的數(shù)據(jù)集構(gòu)建分為自動(dòng)化構(gòu)建和質(zhì)量控制兩個(gè)階段。自動(dòng)化構(gòu)建包括知識內(nèi)容提取、問答對生成、質(zhì)量驗(yàn)證和難度過濾等步驟。在質(zhì)量控制階段,確保數(shù)據(jù)經(jīng)過嚴(yán)格的人工標(biāo)注和復(fù)審,最終生成3000對高質(zhì)量問答對。

        3. 評測指標(biāo)與榜單

        評測采用OpenAI的方法,主要包含四個(gè)指標(biāo):正確率、未回答率、回答錯(cuò)誤率和回答精確率。評測結(jié)果顯示,o1-preview模型表現(xiàn)最佳,而許多小型模型的表現(xiàn)較差,尤其是在知識回答的準(zhǔn)確性上。

        4. 實(shí)驗(yàn)發(fā)現(xiàn)與未來展望

        通過Chinese SimpleQA,研究團(tuán)隊(duì)探索了推理scaling law、模型校準(zhǔn)和檢索增強(qiáng)生成(RAG)等領(lǐng)域。結(jié)果表明,更大的模型通常具有更好的校準(zhǔn)性能,而RAG策略能顯著提升模型的事實(shí)正確性。此外,許多模型在對齊訓(xùn)練后存在明顯的性能下降,反映出當(dāng)前對齊訓(xùn)練在幻覺緩解上的不足。

        總之,Chinese SimpleQA為開發(fā)者深入了解中文模型的事實(shí)正確性提供了重要工具,期待能助力中文基礎(chǔ)模型的進(jìn)一步發(fā)展。


        聯(lián)系作者

        文章來源:機(jī)器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 中文字幕亚洲综合小综合在线| 亚洲精品国产电影午夜| 免费手机在线看片| 亚洲特级aaaaaa毛片| 国产成人精品免费视频网页大全| 久久亚洲精品中文字幕| 999久久久免费精品国产 | 久久精品一区二区免费看| 亚洲国产国产综合一区首页| 4399影视免费观看高清直播| 亚洲国产亚洲综合在线尤物| 午夜高清免费在线观看| 免费无码国产在线观国内自拍中文字幕 | 久久久久久精品成人免费图片| 亚洲www在线观看| 亚洲国产精品线在线观看| 免费三级毛片电影片| 国产亚洲蜜芽精品久久| 亚洲最大激情中文字幕| 精品无码无人网站免费视频| 亚洲 暴爽 AV人人爽日日碰| 亚洲精品国产自在久久| 99在线观看免费视频| 亚洲日韩精品国产3区| 亚洲人成人无码网www国产| 少妇无码一区二区三区免费| 亚洲欧美自偷自拍另类视| 亚洲自偷自偷图片| JLZZJLZZ亚洲乱熟无码| 最新黄色免费网站| 国产大片91精品免费观看不卡| 国产亚洲精彩视频| 美女扒开尿口给男人爽免费视频| 亚洲av永久无码制服河南实里| 国产又黄又爽又猛免费app| 又硬又粗又长又爽免费看 | 99国产精品视频免费观看| 国产亚洲人成在线影院| 亚洲视频小说图片| 亚洲国产中文在线二区三区免| 亚洲毛片不卡av在线播放一区|