Scaling Law觸礁「數(shù)據(jù)墻」？Epoch AI發(fā)文預(yù)測LLM到2028年耗盡所有文本數(shù)據(jù)

AIGC動態(tài)歡迎閱讀

原標(biāo)題：Scaling Law觸礁「數(shù)據(jù)墻」？Epoch AI發(fā)文預(yù)測LLM到2028年耗盡所有文本數(shù)據(jù)
關(guān)鍵字：數(shù)據(jù),政策,報告,模型,文本
文章來源：新智元
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

新智元報道編輯：喬楊
【新智元導(dǎo)讀】訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量，對LLM性能的重要性已經(jīng)是不言自明的事實。然而，Epoch AI近期的一篇論文卻給正在瘋狂擴展的AI模型們潑了冷水，他們預(yù)測，互聯(lián)網(wǎng)上可用的人類文本數(shù)據(jù)將在四年后，即2028年耗盡。數(shù)據(jù)和算力，是AI大模型最重要的兩把「鏟子」。
算力方面，英偉達的不斷創(chuàng)新和各家代工廠的產(chǎn)能提高，讓世界各處的數(shù)據(jù)中心拔地而起，研究人員暫時不用擔(dān)心計算資源。
然而，近些年來，數(shù)據(jù)成為愈發(fā)嚴(yán)峻的問題。
根據(jù)華爾街日報的報道，OpenAI在訓(xùn)練GPT-5時已經(jīng)遇到了文本數(shù)據(jù)不足的問題，正在考慮使用Youtube公開視頻轉(zhuǎn)錄出的文本。
關(guān)于「數(shù)據(jù)耗盡」這個問題，非營利研究機構(gòu)Epoch AI在6月4日發(fā)布了一篇最新論文。
根據(jù)他們的預(yù)測，未來10年內(nèi)，數(shù)據(jù)增長的速度無法支撐起大模型的擴展，LLM會在2028年耗盡互聯(lián)網(wǎng)上的所有文本數(shù)據(jù)。
論文地址：https://arxiv.org/abs/2211.04325
目前這篇論文已被ICML 2024接收。著名的硅谷天才少年Alexandr Wang也轉(zhuǎn)發(fā)了這篇論文，并附上了自己的一番見解。
他創(chuàng)辦的Sca

原文鏈接：Scaling Law觸礁「數(shù)據(jù)墻」？Epoch AI發(fā)文預(yù)測LLM到2028年耗盡所有文本數(shù)據(jù)

聯(lián)系作者

文章來源：新智元
作者微信：AI_era
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展，關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響，領(lǐng)航中國新智能時代。

閱讀原文