Nature 重磅論文:用 AI 生成的數據訓練 AI,會讓大模型崩潰
AIGC動態歡迎閱讀
原標題:Nature 重磅論文:用 AI 生成的數據訓練 AI,會讓大模型崩潰
關鍵字:模型,數據,誤差,概率,函數
文章來源:Founder Park
內容字數:0字
內容摘要:
文章轉載自「新智元」。我們知道,訓練大模型需要大量的數據積累,隨著技術的發展,高質量數據逐漸成為AI進步的強烈需求。
面對這樣的情況下,為了提升模型能力,人們開始使用AI生成的數據返回再次訓練AI,并沒有懷疑這種行為是否會出現問題。
不過,最新研究發現,用 AI 生成的數據訓練 AI,模型可能會崩潰。
牛津、劍橋、帝國理工、多倫多大學等機構的這篇論文,今天登上了 Nature 封面。如果放任大模型用自動生成的數據訓練自己,AI 可能會自我退化,在短短幾代內將原始內容迭代成無法挽回的胡言亂語。如今,LLM 已經強勢入侵了人類的互聯網,極大地改變了在線文本和圖像的生態系統。如果網絡上的大部分文本都是 AI 生成的,我們用網絡數據訓練出的 GPT-n,會發生什么?
研究者發現,如果在訓練中不加區別地使用 AI 產生的內容,模型就會出現不可逆轉的缺陷——原始內容分布的尾部(低概率)會消失。
這種效應,被稱為「模型崩潰」。換句話說,合成數據就像是近親繁殖,會產生質量低劣的后代。
模型崩潰在 LLM、變分自編碼器 VAE 和高斯混合模型 GMM 中,都可能會發生。
有網友認為,是時候敲響警鐘了
原文鏈接:Nature 重磅論文:用 AI 生成的數據訓練 AI,會讓大模型崩潰
聯系作者
文章來源:Founder Park
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...