AI訓(xùn)AI慘遭投毒9次大崩潰,牛津劍橋等驚天發(fā)現(xiàn)登Nature封面!
AIGC動態(tài)歡迎閱讀
原標(biāo)題:AI訓(xùn)AI慘遭投毒9次大崩潰,牛津劍橋等驚天發(fā)現(xiàn)登Nature封面!
關(guān)鍵字:模型,數(shù)據(jù),誤差,概率,函數(shù)
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:編輯部
【新智元導(dǎo)讀】9次迭代后,模型開始出現(xiàn)詭異亂碼,直接原地崩潰!就在今天,牛津、劍橋等機(jī)構(gòu)的一篇論文登上了Nature封面,稱合成數(shù)據(jù)就像近親繁殖,效果無異于投毒。有無之法?那就是——更多使用人類數(shù)據(jù)!用AI生成的數(shù)據(jù)訓(xùn)練AI,模型會崩潰?
牛津、劍橋、帝國理工、多倫多大學(xué)等機(jī)構(gòu)的這篇論文,今天登上了Nature封面。
如今,LLM已經(jīng)強(qiáng)勢入侵了人類的互聯(lián)網(wǎng),極大地改變了在線文本和圖像的生態(tài)系統(tǒng)。
如果網(wǎng)絡(luò)上的大部分文本都是AI生成的,我們用網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練出的GPT-n,會發(fā)生什么?
論文地址:https://www.nature.com/articles/s41586-024-07566-y
研究者發(fā)現(xiàn),如果在訓(xùn)練中不加區(qū)別地使用AI產(chǎn)生的內(nèi)容,模型就會出現(xiàn)不可逆轉(zhuǎn)的缺陷——原始內(nèi)容分布的尾部(低概率)會消失!
這種效應(yīng),被稱為「模型崩潰」。
換句話說,合成數(shù)據(jù)就像是近親繁殖,會產(chǎn)生質(zhì)量低劣的后代。
模型崩潰在LLM、變分自編碼器VAE和高斯混合模型GMM中,都可能會發(fā)生。
有網(wǎng)友認(rèn)為,是時候敲響警鐘了!
「如果大模型真的在AI生內(nèi)容的重壓下崩潰,這對它
原文鏈接:AI訓(xùn)AI慘遭投毒9次大崩潰,牛津劍橋等驚天發(fā)現(xiàn)登Nature封面!
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: