Nature 重磅論文:用 AI 生成的數(shù)據(jù)訓(xùn)練 AI,會讓大模型崩潰
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Nature 重磅論文:用 AI 生成的數(shù)據(jù)訓(xùn)練 AI,會讓大模型崩潰
關(guān)鍵字:模型,數(shù)據(jù),誤差,概率,函數(shù)
文章來源:Founder Park
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
文章轉(zhuǎn)載自「新智元」。我們知道,訓(xùn)練大模型需要大量的數(shù)據(jù)積累,隨著技術(shù)的發(fā)展,高質(zhì)量數(shù)據(jù)逐漸成為AI進(jìn)步的強烈需求。
面對這樣的情況下,為了提升模型能力,人們開始使用AI生成的數(shù)據(jù)返回再次訓(xùn)練AI,并沒有懷疑這種行為是否會出現(xiàn)問題。
不過,最新研究發(fā)現(xiàn),用 AI 生成的數(shù)據(jù)訓(xùn)練 AI,模型可能會崩潰。
牛津、劍橋、帝國理工、多倫多大學(xué)等機構(gòu)的這篇論文,今天登上了 Nature 封面。如果放任大模型用自動生成的數(shù)據(jù)訓(xùn)練自己,AI 可能會自我退化,在短短幾代內(nèi)將原始內(nèi)容迭代成無法挽回的胡言亂語。如今,LLM 已經(jīng)強勢入侵了人類的互聯(lián)網(wǎng),極大地改變了在線文本和圖像的生態(tài)系統(tǒng)。如果網(wǎng)絡(luò)上的大部分文本都是 AI 生成的,我們用網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練出的 GPT-n,會發(fā)生什么?
研究者發(fā)現(xiàn),如果在訓(xùn)練中不加區(qū)別地使用 AI 產(chǎn)生的內(nèi)容,模型就會出現(xiàn)不可逆轉(zhuǎn)的缺陷——原始內(nèi)容分布的尾部(低概率)會消失。
這種效應(yīng),被稱為「模型崩潰」。換句話說,合成數(shù)據(jù)就像是近親繁殖,會產(chǎn)生質(zhì)量低劣的后代。
模型崩潰在 LLM、變分自編碼器 VAE 和高斯混合模型 GMM 中,都可能會發(fā)生。
有網(wǎng)友認(rèn)為,是時候敲響警鐘了
原文鏈接:Nature 重磅論文:用 AI 生成的數(shù)據(jù)訓(xùn)練 AI,會讓大模型崩潰
聯(lián)系作者
文章來源:Founder Park
作者微信:
作者簡介: