Nature 重磅論文:用 AI 生成的數(shù)據(jù)訓練 AI,會讓大模型崩潰

AIGC動態(tài)歡迎閱讀
原標題:Nature 重磅論文:用 AI 生成的數(shù)據(jù)訓練 AI,會讓大模型崩潰
關鍵字:模型,數(shù)據(jù),誤差,概率,函數(shù)
文章來源:Founder Park
內容字數(shù):0字
內容摘要:
文章轉載自「新智元」。我們知道,訓練大模型需要大量的數(shù)據(jù)積累,隨著技術的發(fā)展,高質量數(shù)據(jù)逐漸成為AI進步的強烈需求。
面對這樣的情況下,為了提升模型能力,人們開始使用AI生成的數(shù)據(jù)返回再次訓練AI,并沒有懷疑這種行為是否會出現(xiàn)問題。
不過,最新研究發(fā)現(xiàn),用 AI 生成的數(shù)據(jù)訓練 AI,模型可能會崩潰。
牛津、劍橋、帝國理工、多倫多大學等機構的這篇論文,今天登上了 Nature 封面。如果放任大模型用自動生成的數(shù)據(jù)訓練自己,AI 可能會自我退化,在短短幾代內將原始內容迭代成無法挽回的胡言亂語。如今,LLM 已經(jīng)強勢入侵了人類的互聯(lián)網(wǎng),極大地改變了在線文本和圖像的生態(tài)系統(tǒng)。如果網(wǎng)絡上的大部分文本都是 AI 生成的,我們用網(wǎng)絡數(shù)據(jù)訓練出的 GPT-n,會發(fā)生什么?
研究者發(fā)現(xiàn),如果在訓練中不加區(qū)別地使用 AI 產(chǎn)生的內容,模型就會出現(xiàn)不可逆轉的缺陷——原始內容分布的尾部(低概率)會消失。
這種效應,被稱為「模型崩潰」。換句話說,合成數(shù)據(jù)就像是近親繁殖,會產(chǎn)生質量低劣的后代。
模型崩潰在 LLM、變分自編碼器 VAE 和高斯混合模型 GMM 中,都可能會發(fā)生。
有網(wǎng)友認為,是時候敲響警鐘了
原文鏈接:Nature 重磅論文:用 AI 生成的數(shù)據(jù)訓練 AI,會讓大模型崩潰
聯(lián)系作者
文章來源:Founder Park
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號