僅需格式轉(zhuǎn)換提升9%數(shù)學(xué)推理能力,上交開(kāi)源新對(duì)齊方法ReAlign
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:僅需格式轉(zhuǎn)換提升9%數(shù)學(xué)推理能力,上交開(kāi)源新對(duì)齊方法ReAlign
關(guān)鍵字:任務(wù),模型,數(shù)據(jù),事實(shí)性,騰訊
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):7148字
內(nèi)容摘要:
Pengfei 投稿量子位 | 公眾號(hào) QbitAI大模型對(duì)齊新方法,讓數(shù)學(xué)推理能力直接提升9%。
上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室(GAIR Lab)新成果ReAlign,現(xiàn)已開(kāi)源。
隨著以ChatGPT為代表的語(yǔ)言大模型的快速發(fā)展,研究人員意識(shí)到訓(xùn)練數(shù)據(jù)的質(zhì)量才是大模型對(duì)齊的關(guān)鍵。
然而,目前主流的提示數(shù)據(jù)質(zhì)量的方法不是需要大量人工成本(人工構(gòu)造高質(zhì)量數(shù)據(jù))就是容易遭受大模型幻覺(jué)的影響(從蒸餾數(shù)據(jù)中選擇高質(zhì)量樣本)。
ReAlign能以較小的人工成本提升現(xiàn)有數(shù)據(jù)集的質(zhì)量,進(jìn)而提升模型整體對(duì)齊能力,包含數(shù)學(xué)推理能力、回答問(wèn)題的事實(shí)性、回答的可讀性。
目前,該項(xiàng)目開(kāi)源了大量資源:
ReAlign代碼(使用方法和步驟均在Github中給出)
ReAlign后的數(shù)據(jù)集,Github倉(cāng)庫(kù)中給出,同時(shí)包含huggingface版本。
46個(gè)不同任務(wù)場(chǎng)景對(duì)應(yīng)的任務(wù)描述以及人工構(gòu)造的回答格式。
用于對(duì)指令數(shù)據(jù)任務(wù)分類(lèi)的分類(lèi)器以及該分類(lèi)器的訓(xùn)練數(shù)據(jù)。
用于事實(shí)性(Factuality)評(píng)估的NQ數(shù)據(jù)集及其ground truth。
用于可讀性(Readability)和事實(shí)性(Factuality)
原文鏈接:僅需格式轉(zhuǎn)換提升9%數(shù)學(xué)推理能力,上交開(kāi)源新對(duì)齊方法ReAlign
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破