大模型「強崩潰」!Meta新作:合成數據有「劇毒」,1%即成LLM
AIGC動態(tài)歡迎閱讀
原標題:大模型「強崩潰」!Meta新作:合成數據有「劇毒」,1%即成LLM
關鍵字:數據,模型,定理,理論,質量
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:喬楊桃子
【新智元導讀】1%合成數據,就能讓模型瞬間崩潰!來自Meta、NYU等機構團隊證實,「微量」合成數據便讓LLM弱不可堪。甚至,參數規(guī)模越大,模型崩潰越嚴重。1%的合成數據,就讓LLM完全崩潰了?
7月,登上Nature封面一篇論文證實,用合成數據訓練模型就相當于「近親繁殖」,9次迭代后就會讓模型原地崩潰。
論文地址:https://www.nature.com/articles/s41586-024-07566-y
然而,許多大佬都不同意這篇文章的方法和結論。
比如,Scale AI的CEO Alexandr Wang就很看好合成數據的前景,英偉達發(fā)布的開源模型Nemotron-4 340B甚至使用了98%的合成數據。
最近,Meta、紐約大學、UCLA機構發(fā)表的最新論文,再一次動搖了這些大佬們的結論。
論文地址:https://arxiv.org/abs/2410.04840
他們發(fā)現(xiàn),即使合成數據僅僅占到總數據集的最小部分,甚至是1%的比例,仍然可能導致模型崩潰。
甚至,ChatGPT和Llama這種較大的模型,還可能放大這種「崩潰」現(xiàn)象。
強模型崩潰,
原文鏈接:大模型「強崩潰」!Meta新作:合成數據有「劇毒」,1%即成LLM
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...