AIGC動態歡迎閱讀
原標題:Nature最新封面:AI訓練AI?也許越來越笨
關鍵字:模型,數據,誤差,內容,尾部
文章來源:大數據文摘
內容字數:0字
內容摘要:
大數據文摘授權轉載自學術頭條
撰文:馬雪薇
編審:佩奇當前,在愈發火熱的大模型行業,Scaling Law 被證明依然奏效。
問題是,一旦由人類生成的高質量數據(如書籍、文章、照片、視頻等)用盡,大模型訓練又該如何進行?
目前,一個被寄予厚望的方法是“用大模型自己生成的數據來訓練自己”。事實上,如果后代模型的訓練數據也從網絡中獲取,就會不可避免地使用前代模型生成的數據。
然而,來自牛津大學和劍橋大學的研究團隊及其合作者,卻給這一設想“潑了一盆冷水”。
他們給出了這樣一個結論:模型在訓練中使用自身生成的內容,會出現不可逆轉的缺陷,逐漸忘記真實數據分布,從而導致模型性能下降。
即“模型崩潰”(Model Collapse)。
相關研究論文以“AI models collapse when trained on recursively generated data”為題,已發表在權威科學期刊 Nature 上。但他們也表示,用一個舊模型生成的數據去訓練一個新模型,并非不可行,但必須對數據進行嚴格的過濾。
在一篇同期發表的新聞與觀點文章中,來自杜克大學的 Emily Wenger 認為,“論文
聯系作者
文章來源:大數據文摘
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...