AIGC動態歡迎閱讀
原標題:AI訓AI慘遭投毒9次大崩潰,牛津劍橋等驚天發現登Nature封面!
關鍵字:模型,數據,誤差,概率,函數
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:編輯部
【新智元導讀】9次迭代后,模型開始出現詭異亂碼,直接原地崩潰!就在今天,牛津、劍橋等機構的一篇論文登上了Nature封面,稱合成數據就像近親繁殖,效果無異于投毒。有無之法?那就是——更多使用人類數據!用AI生成的數據訓練AI,模型會崩潰?
牛津、劍橋、帝國理工、多倫多大學等機構的這篇論文,今天登上了Nature封面。
如今,LLM已經強勢入侵了人類的互聯網,極大地改變了在線文本和圖像的生態系統。
如果網絡上的大部分文本都是AI生成的,我們用網絡數據訓練出的GPT-n,會發生什么?
論文地址:https://www.nature.com/articles/s41586-024-07566-y
研究者發現,如果在訓練中不加區別地使用AI產生的內容,模型就會出現不可逆轉的缺陷——原始內容分布的尾部(低概率)會消失!
這種效應,被稱為「模型崩潰」。
換句話說,合成數據就像是近親繁殖,會產生質量低劣的后代。
模型崩潰在LLM、變分自編碼器VAE和高斯混合模型GMM中,都可能會發生。
有網友認為,是時候敲響警鐘了!
「如果大模型真的在AI生內容的重壓下崩潰,這對它
原文鏈接:AI訓AI慘遭投毒9次大崩潰,牛津劍橋等驚天發現登Nature封面!
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...