Nature封面:AI訓(xùn)練AI,越訓(xùn)越離譜

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Nature封面:AI訓(xùn)練AI,越訓(xùn)越離譜
關(guān)鍵字:模型,數(shù)據(jù),報(bào)告,誤差,語言
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部訓(xùn)練數(shù)據(jù)是用 GPT-4o 生成的?那質(zhì)量不好說了。我們知道,大模型面臨的三大挑戰(zhàn)是算法、算力和數(shù)據(jù)。前兩者靠?jī)?yōu)化升級(jí),后者靠積累。隨著技術(shù)的不斷發(fā)展,高質(zhì)量數(shù)據(jù)已經(jīng)逐漸成為最大的瓶頸。
在很多新模型上,人們?yōu)榱颂嵘P湍芰Γ疾捎昧耸褂?AI 生成數(shù)據(jù)來訓(xùn)練的方式。人們普遍認(rèn)為,使用合成數(shù)據(jù)可以顯著提升模型質(zhì)量。
不過,最新的研究認(rèn)為,使用 AI 生成的數(shù)據(jù)并不是什么好辦法,反而可能會(huì)讓模型陷入崩潰。
今天發(fā)表在學(xué)術(shù)頂刊《自然》雜志的封面研究認(rèn)為,如果放任大模型用自動(dòng)生成的數(shù)據(jù)訓(xùn)練自己,AI 可能會(huì)自我退化,在短短幾代內(nèi)將原始內(nèi)容迭代成無法挽回的胡言亂語。這篇由牛津大學(xué)等機(jī)構(gòu)提交的研究,強(qiáng)調(diào)了由于自我訓(xùn)練導(dǎo)致人工智能模型崩潰(Model Collapse)的風(fēng)險(xiǎn),論證了原始數(shù)據(jù)源和仔細(xì)數(shù)據(jù)過濾的必要性。論文鏈接:https://www.nature.com/articles/s41586-024-07566-y
哪種模型容易崩潰?
研究認(rèn)為,當(dāng)人工智能模型在生成的數(shù)據(jù)上進(jìn)行過度訓(xùn)練時(shí),就會(huì)發(fā)生不可逆轉(zhuǎn)的模型崩潰。
「模型崩潰是指由于對(duì)合成數(shù)據(jù)進(jìn)行不加區(qū)分的
原文鏈接:Nature封面:AI訓(xùn)練AI,越訓(xùn)越離譜
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:

粵公網(wǎng)安備 44011502001135號(hào)