Scaling Law觸礁「數(shù)據(jù)墻」?Epoch AI發(fā)文預(yù)測(cè)LLM到2028年耗盡所有文本數(shù)據(jù)

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Scaling Law觸礁「數(shù)據(jù)墻」?Epoch AI發(fā)文預(yù)測(cè)LLM到2028年耗盡所有文本數(shù)據(jù)
關(guān)鍵字:數(shù)據(jù),政策,報(bào)告,模型,文本
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:?jiǎn)虠?br />【新智元導(dǎo)讀】訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量,對(duì)LLM性能的重要性已經(jīng)是不言自明的事實(shí)。然而,Epoch AI近期的一篇論文卻給正在瘋狂擴(kuò)展的AI模型們潑了冷水,他們預(yù)測(cè),互聯(lián)網(wǎng)上可用的人類文本數(shù)據(jù)將在四年后,即2028年耗盡。數(shù)據(jù)和算力,是AI大模型最重要的兩把「鏟子」。
算力方面,英偉達(dá)的不斷創(chuàng)新和各家代工廠的產(chǎn)能提高,讓世界各處的數(shù)據(jù)中心拔地而起,研究人員暫時(shí)不用擔(dān)心計(jì)算資源。
然而,近些年來(lái),數(shù)據(jù)成為愈發(fā)嚴(yán)峻的問題。
根據(jù)華爾街日?qǐng)?bào)的報(bào)道,OpenAI在訓(xùn)練GPT-5時(shí)已經(jīng)遇到了文本數(shù)據(jù)不足的問題,正在考慮使用Youtube公開視頻轉(zhuǎn)錄出的文本。
關(guān)于「數(shù)據(jù)耗盡」這個(gè)問題,非營(yíng)利研究機(jī)構(gòu)Epoch AI在6月4日發(fā)布了一篇最新論文。
根據(jù)他們的預(yù)測(cè),未來(lái)10年內(nèi),數(shù)據(jù)增長(zhǎng)的速度無(wú)法支撐起大模型的擴(kuò)展,LLM會(huì)在2028年耗盡互聯(lián)網(wǎng)上的所有文本數(shù)據(jù)。
論文地址:https://arxiv.org/abs/2211.04325
目前這篇論文已被ICML 2024接收。著名的硅谷天才少年Alexandr Wang也轉(zhuǎn)發(fā)了這篇論文,并附上了自己的一番見解。
他創(chuàng)辦的Sca
原文鏈接:Scaling Law觸礁「數(shù)據(jù)墻」?Epoch AI發(fā)文預(yù)測(cè)LLM到2028年耗盡所有文本數(shù)據(jù)
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)