減輕幻覺新SOTA，7B模型自迭代訓(xùn)練效果超越GPT-4，上海AI lab發(fā)布

AIGC動態(tài)歡迎閱讀

原標(biāo)題：減輕幻覺新SOTA，7B模型自迭代訓(xùn)練效果超越GPT-4，上海AI lab發(fā)布
關(guān)鍵字：幻覺,數(shù)據(jù),模型,階段,性能
文章來源：夕小瑤科技說
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 謝年年
LLMs在回答各種復(fù)雜問題時，有時會“胡言亂語”，產(chǎn)生所謂的幻覺。解決這一問題的初始步驟就是創(chuàng)建高質(zhì)量幻覺數(shù)據(jù)集訓(xùn)練模型以幫助檢測、緩解幻覺。
但現(xiàn)有的幻覺標(biāo)注數(shù)據(jù)集，因為領(lǐng)域窄、數(shù)量少，加上制作成本高、標(biāo)注人員水平不一，所以很難變得強大。
為了解決這個問題，上海AI lab設(shè)計了一個迭代自訓(xùn)練框架——ANAH-v2，它像滾雪球一樣，一邊擴大幻覺檢測的數(shù)據(jù)集，一邊提高標(biāo)注者的準(zhǔn)確性。
這個框架利用期望最大化算法，每次循環(huán)都會先用現(xiàn)有的幻覺標(biāo)注工具給新數(shù)據(jù)打上“幻覺”標(biāo)簽，然后用這些新數(shù)據(jù)訓(xùn)練一個更厲害的標(biāo)注工具。
通過迭代，檢測工具越來越強，數(shù)據(jù)集也越來越大。一個僅有7B參數(shù)的幻覺標(biāo)注模型（89.55%）超越了GPT-4的表現(xiàn)（86.97%），并且在幻覺檢測基準(zhǔn)HaluEval和HalluQA上獲得了新的SOTA！
論文標(biāo)題:ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models
論文鏈接：https://arxiv.org/pdf/2407.0469

原文鏈接：減輕幻覺新SOTA，7B模型自迭代訓(xùn)練效果超越GPT-4，上海AI lab發(fā)布