“OpenAI o1:中文真實(shí)性評(píng)估中的頂尖之選!”
來(lái)自淘天團(tuán)隊(duì)“中文簡(jiǎn)短問(wèn)答”測(cè)試基準(zhǔn)
原標(biāo)題:史上最嚴(yán)“中文真實(shí)性評(píng)估”:OpenAI o1第1豆包第2,其它全部不及格
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):12883字
中文簡(jiǎn)短問(wèn)答基準(zhǔn)的提出及其重要性
隨著大語(yǔ)言模型(LLM)的快速發(fā)展,評(píng)估其真實(shí)性能力的標(biāo)準(zhǔn)變得愈發(fā)重要。淘寶天貓集團(tuán)的研究者們提出了中文簡(jiǎn)短問(wèn)答(Chinese SimpleQA),這是首個(gè)全面的中文基準(zhǔn),具備“中文、多樣性、高質(zhì)量、靜態(tài)、易于評(píng)估”五個(gè)特性。該基準(zhǔn)旨在幫助開(kāi)發(fā)者理解模型在中文環(huán)境中的真實(shí)性表現(xiàn),并推動(dòng)基礎(chǔ)模型的進(jìn)步。
基準(zhǔn)的特征與數(shù)據(jù)收集
中文簡(jiǎn)短問(wèn)答基準(zhǔn)包含3000個(gè)高質(zhì)量問(wèn)題,涵蓋“中國(guó)文化”、“人文”、“工程與技術(shù)”、“生活與文化”、“社會(huì)”和“自然科學(xué)”等六個(gè)主題。數(shù)據(jù)收集過(guò)程結(jié)合了自動(dòng)生成與人工驗(yàn)證,確保問(wèn)題和答案的質(zhì)量。這些問(wèn)題均為客觀且唯一,且不會(huì)隨時(shí)間變化,確保其有效性和挑戰(zhàn)性。
評(píng)估現(xiàn)有模型的發(fā)現(xiàn)
研究顯示,只有少數(shù)模型(如o1-preview和Doubao-pro-32k)達(dá)到及格分?jǐn)?shù),提示許多模型仍需改進(jìn)。結(jié)果表明,模型規(guī)模越大,性能越好。此外,檢索增強(qiáng)生成(RAG)技術(shù)顯著提高了模型的真實(shí)性,縮小了不同模型之間的性能差距。
模型性能的進(jìn)一步分析
作者評(píng)估了17個(gè)閉源和24個(gè)開(kāi)源大語(yǔ)言模型,發(fā)現(xiàn)“mini”系列模型的表現(xiàn)普遍較差,而中文社區(qū)模型在“中國(guó)文化”主題上表現(xiàn)優(yōu)于一些主流模型。模型的校準(zhǔn)、測(cè)試時(shí)間與準(zhǔn)確性之間的關(guān)系也被深入探討,強(qiáng)調(diào)了RAG在提升模型性能中的關(guān)鍵作用。
結(jié)論與未來(lái)方向
中文簡(jiǎn)短問(wèn)答基準(zhǔn)的提出,為評(píng)估大語(yǔ)言模型的真實(shí)性能力提供了新的工具。研究者們將在未來(lái)繼續(xù)探索提升模型真實(shí)性的方法,并考慮將該基準(zhǔn)擴(kuò)展到多語(yǔ)言和多模態(tài)設(shè)置,以適應(yīng)更廣泛的應(yīng)用需求。
更多信息請(qǐng)查閱論文:中文簡(jiǎn)短問(wèn)答基準(zhǔn)論文.
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破