從百度的Scaling Law啟示,Anthropic CEO的靈感之旅:探尋人工智能的無(wú)限可能
但最終OpenAI驗(yàn)證了它!
原標(biāo)題:遺憾不?原來(lái)百度2017年就研究過(guò)Scaling Law,連Anthropic CEO靈感都來(lái)自百度
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6466字
Scaling Law的起源與發(fā)展
根據(jù)機(jī)器之心的報(bào)道,百度早在2017年就進(jìn)行了關(guān)于Scaling Law的研究,驗(yàn)證了深度學(xué)習(xí)模型的泛化誤差與模型大小之間的冪律關(guān)系。然而,此時(shí)他們使用的是LSTM模型,而非后來(lái)的Transformer,并未將這一發(fā)現(xiàn)命名為“Scaling Law”。在追求AGI的過(guò)程中,Scaling Law成為了一個(gè)重要的研究方向,這一理論提示學(xué)術(shù)界在模型規(guī)模與計(jì)算能力的擴(kuò)展上可能遇到瓶頸。
Scaling Law的廣泛認(rèn)知
Scaling Law的概念通常歸功于OpenAI在2020年發(fā)布的一篇論文《Scaling Laws for Neural Language Models》。該論文詳細(xì)闡述了模型性能如何隨參數(shù)量、數(shù)據(jù)量和計(jì)算資源的增加而呈指數(shù)提升。盡管OpenAI在大模型領(lǐng)域取得了顯著的進(jìn)展,但關(guān)于這一理論的最早發(fā)現(xiàn)和驗(yàn)證過(guò)程卻鮮有深入探討。
Dario Amodei的貢獻(xiàn)
Anthropic的CEO Dario Amodei在一次播客中提到,他在2014年至2015年期間在百度工作的經(jīng)歷對(duì)他理解Scaling Law有重要影響。在此期間,他觀察到隨著計(jì)算資源和數(shù)據(jù)量的增加,模型的表現(xiàn)顯著提升。雖然當(dāng)時(shí)他并未深入研究,但這一直覺為后來(lái)的工作奠定了基礎(chǔ)。
百度的研究成果
百度在2017年發(fā)布的論文《DEEP LEARNING SCALING IS PREDICTABLE,EMPIRICALLY》展現(xiàn)了在多種應(yīng)用領(lǐng)域中,深度學(xué)習(xí)的泛化誤差與訓(xùn)練集規(guī)模之間的冪律關(guān)系。研究者們強(qiáng)調(diào),通過(guò)增加訓(xùn)練數(shù)據(jù)和計(jì)算資源,可以有效提高模型的準(zhǔn)確性,提供了可預(yù)測(cè)的學(xué)習(xí)曲線和模型大小關(guān)系,為深度學(xué)習(xí)的實(shí)踐應(yīng)用提供了指導(dǎo)。
總結(jié)與反思
盡管百度在Scaling Law領(lǐng)域的早期研究沒有得到及時(shí)的轉(zhuǎn)化應(yīng)用,但這一理論的提出為深度學(xué)習(xí)的發(fā)展提供了重要的視角。隨著技術(shù)的進(jìn)步,Scaling Law的研究仍將繼續(xù)推動(dòng)AI領(lǐng)域的創(chuàng)新與發(fā)展。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)