AIGC動態歡迎閱讀
內容摘要:
來源:量子位 | 公眾號 QbitAI白交 發自 凹非寺AI訓練AI,可能會讓AI變傻?!
來自牛津、劍橋等學校機構的研究人員最新發現,使用合成數據訓練,大模型可能會崩潰。其研究成果被選為最新的Nature封面。
直接一個:GARBAGE OUT!
要知道,現在絕大部分科技公司的大模型都在用合成數據來緩解“數據荒”。這下無疑是整個行業澆了一波冷水。
研究團隊給了這樣一個例子。
他們測試了Meta的OPT-125m模型,詢問了關于中世紀建筑的相關信息。
每一次微調都是由上一次生成的數據來訓練。結果前面幾輪回答還好。結果就在第九次,就開始胡說八道……
扯到兔子是什么鬼?!
該論文主要作者表示,他們曾考慮過合成數據可能對大模型造成誤差,但未曾預料到模型的惡化速度會如此迅速。
三個誤差導致模型崩潰首先,團隊定義了什么是模型崩潰。
模型崩潰是一個退化過程,模型生成的內容會污染下一代的訓練數據集。而在被污染的數據上訓練之后,新一代模型就容易誤解現實。
以此循環往復,一代更比一代差。
按照時間推移,主要分為兩種情況:早期模型崩潰和晚期模型崩潰。
早期模型崩潰中,模型開始丟失一些尾部信息。(類似概率分
原文鏈接:Nature封面:AI訓AI,越訓越傻
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...