Scaling Law觸礁「數(shù)據(jù)墻」?Epoch AI發(fā)文預(yù)測LLM到2028年耗盡所有文本數(shù)據(jù)
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Scaling Law觸礁「數(shù)據(jù)墻」?Epoch AI發(fā)文預(yù)測LLM到2028年耗盡所有文本數(shù)據(jù)
關(guān)鍵字:數(shù)據(jù),政策,報告,模型,文本
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:喬楊
【新智元導(dǎo)讀】訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量,對LLM性能的重要性已經(jīng)是不言自明的事實。然而,Epoch AI近期的一篇論文卻給正在瘋狂擴展的AI模型們潑了冷水,他們預(yù)測,互聯(lián)網(wǎng)上可用的人類文本數(shù)據(jù)將在四年后,即2028年耗盡。數(shù)據(jù)和算力,是AI大模型最重要的兩把「鏟子」。
算力方面,英偉達的不斷創(chuàng)新和各家代工廠的產(chǎn)能提高,讓世界各處的數(shù)據(jù)中心拔地而起,研究人員暫時不用擔(dān)心計算資源。
然而,近些年來,數(shù)據(jù)成為愈發(fā)嚴(yán)峻的問題。
根據(jù)華爾街日報的報道,OpenAI在訓(xùn)練GPT-5時已經(jīng)遇到了文本數(shù)據(jù)不足的問題,正在考慮使用Youtube公開視頻轉(zhuǎn)錄出的文本。
關(guān)于「數(shù)據(jù)耗盡」這個問題,非營利研究機構(gòu)Epoch AI在6月4日發(fā)布了一篇最新論文。
根據(jù)他們的預(yù)測,未來10年內(nèi),數(shù)據(jù)增長的速度無法支撐起大模型的擴展,LLM會在2028年耗盡互聯(lián)網(wǎng)上的所有文本數(shù)據(jù)。
論文地址:https://arxiv.org/abs/2211.04325
目前這篇論文已被ICML 2024接收。著名的硅谷天才少年Alexandr Wang也轉(zhuǎn)發(fā)了這篇論文,并附上了自己的一番見解。
他創(chuàng)辦的Sca
原文鏈接:Scaling Law觸礁「數(shù)據(jù)墻」?Epoch AI發(fā)文預(yù)測LLM到2028年耗盡所有文本數(shù)據(jù)
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。