Nature 重磅論文：用 AI 生成的數(shù)據(jù)訓練 AI，會讓大模型崩潰

AIGC動態(tài)1年前 (2024)發(fā)布 Founder Park

AIGC動態(tài)歡迎閱讀

原標題：Nature 重磅論文：用 AI 生成的數(shù)據(jù)訓練 AI，會讓大模型崩潰
關鍵字：模型,數(shù)據(jù),誤差,概率,函數(shù)
文章來源：Founder Park
內容字數(shù)：0字

內容摘要：

文章轉載自「新智元」。我們知道，訓練大模型需要大量的數(shù)據(jù)積累，隨著技術的發(fā)展，高質量數(shù)據(jù)逐漸成為AI進步的強烈需求。
面對這樣的情況下，為了提升模型能力，人們開始使用AI生成的數(shù)據(jù)返回再次訓練AI，并沒有懷疑這種行為是否會出現(xiàn)問題。
不過，最新研究發(fā)現(xiàn)，用 AI 生成的數(shù)據(jù)訓練 AI，模型可能會崩潰。
牛津、劍橋、帝國理工、多倫多大學等機構的這篇論文，今天登上了 Nature 封面。如果放任大模型用自動生成的數(shù)據(jù)訓練自己，AI 可能會自我退化，在短短幾代內將原始內容迭代成無法挽回的胡言亂語。如今，LLM 已經(jīng)強勢入侵了人類的互聯(lián)網(wǎng)，極大地改變了在線文本和圖像的生態(tài)系統(tǒng)。如果網(wǎng)絡上的大部分文本都是 AI 生成的，我們用網(wǎng)絡數(shù)據(jù)訓練出的 GPT-n，會發(fā)生什么？
研究者發(fā)現(xiàn)，如果在訓練中不加區(qū)別地使用 AI 產(chǎn)生的內容，模型就會出現(xiàn)不可逆轉的缺陷——原始內容分布的尾部（低概率）會消失。
這種效應，被稱為「模型崩潰」。換句話說，合成數(shù)據(jù)就像是近親繁殖，會產(chǎn)生質量低劣的后代。
模型崩潰在 LLM、變分自編碼器 VAE 和高斯混合模型 GMM 中，都可能會發(fā)生。
有網(wǎng)友認為，是時候敲響警鐘了

原文鏈接：Nature 重磅論文：用 AI 生成的數(shù)據(jù)訓練 AI，會讓大模型崩潰