減輕幻覺新SOTA,7B模型自迭代訓(xùn)練效果超越GPT-4,上海AI lab發(fā)布
AIGC動態(tài)歡迎閱讀
原標(biāo)題:減輕幻覺新SOTA,7B模型自迭代訓(xùn)練效果超越GPT-4,上海AI lab發(fā)布
關(guān)鍵字:幻覺,數(shù)據(jù),模型,階段,性能
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 謝年年
LLMs在回答各種復(fù)雜問題時,有時會“胡言亂語”,產(chǎn)生所謂的幻覺。解決這一問題的初始步驟就是創(chuàng)建高質(zhì)量幻覺數(shù)據(jù)集訓(xùn)練模型以幫助檢測、緩解幻覺。
但現(xiàn)有的幻覺標(biāo)注數(shù)據(jù)集,因為領(lǐng)域窄、數(shù)量少,加上制作成本高、標(biāo)注人員水平不一,所以很難變得強大。
為了解決這個問題,上海AI lab設(shè)計了一個迭代自訓(xùn)練框架——ANAH-v2,它像滾雪球一樣,一邊擴大幻覺檢測的數(shù)據(jù)集,一邊提高標(biāo)注者的準(zhǔn)確性。
這個框架利用期望最大化算法,每次循環(huán)都會先用現(xiàn)有的幻覺標(biāo)注工具給新數(shù)據(jù)打上“幻覺”標(biāo)簽,然后用這些新數(shù)據(jù)訓(xùn)練一個更厲害的標(biāo)注工具。
通過迭代,檢測工具越來越強,數(shù)據(jù)集也越來越大。一個僅有7B參數(shù)的幻覺標(biāo)注模型(89.55%)超越了GPT-4的表現(xiàn)(86.97%),并且在幻覺檢測基準(zhǔn)HaluEval和HalluQA上獲得了新的SOTA!
論文標(biāo)題:ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models
論文鏈接:https://arxiv.org/pdf/2407.0469
原文鏈接:減輕幻覺新SOTA,7B模型自迭代訓(xùn)練效果超越GPT-4,上海AI lab發(fā)布
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介: