百度研究院:Scaling Law的突破性發(fā)現(xiàn),顛覆AI發(fā)展新局面!

原標(biāo)題:是百度太低調(diào)了嗎?網(wǎng)傳Scaling Law開山之作來自百度研究院
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):5161字
1. 引言
最近,Anthropic的CEO Dario Amodei在采訪中提到,Scaling Law的概念最早在2014年于百度被發(fā)現(xiàn),這一消息引發(fā)了廣泛關(guān)注。Scaling Law,或稱為“擴(kuò)展法則”,指的是隨著模型規(guī)模和訓(xùn)練數(shù)據(jù)的增加,模型性能顯著提升的現(xiàn)象。
2. Scaling Law的起源
根據(jù)Amodei的說法,2014年他與吳恩達(dá)在百度工作時(shí)觀察到了這一規(guī)律。雖然OpenAI于2020年發(fā)表了相關(guān)論文,使得Scaling Law廣為人知,但實(shí)際上,早在2017年,百度的研究就已揭示了深度學(xué)習(xí)模型的泛化誤差與模型大小和訓(xùn)練集規(guī)模之間的可預(yù)測(cè)關(guān)系。
3. 百度2017年論文的貢獻(xiàn)
百度的論文《Deep Learning Scaling Is Predictable,Empirically》通過大規(guī)模實(shí)證研究,探討了四個(gè)機(jī)器學(xué)習(xí)領(lǐng)域中模型性能與數(shù)據(jù)集規(guī)模的關(guān)系。研究表明,隨著訓(xùn)練數(shù)據(jù)的增加,泛化誤差和模型大小呈現(xiàn)冪律縮放關(guān)系。盡管模型改進(jìn)會(huì)改變冪律截距,但冪律指數(shù)保持不變。這項(xiàng)研究為后來的Scaling Law奠定了基礎(chǔ)。
4. 研究方法與實(shí)驗(yàn)
研究團(tuán)隊(duì)選取了不同規(guī)模的數(shù)據(jù)集,并對(duì)模型進(jìn)行超參數(shù)調(diào)整,以觀察性能變化。他們發(fā)現(xiàn),當(dāng)訓(xùn)練集足夠大時(shí),模型性能會(huì)趨近于理論上的不可約誤差。這一發(fā)現(xiàn)為理解深度學(xué)習(xí)中的Scaling Law提供了重要的實(shí)證支持。
5. 百度的AI發(fā)展歷程
回顧百度在AI領(lǐng)域的發(fā)展,李彥宏曾試圖引進(jìn)圖靈獎(jiǎng)得主Geoffrey Hinton的團(tuán)隊(duì),但未能成功。隨后,他帶領(lǐng)百度成立了硅谷人工智能實(shí)驗(yàn)室,招募了吳恩達(dá)等多位AI領(lǐng)域的知名專家,推動(dòng)了百度在AI研究上的進(jìn)展。
6. 結(jié)論
盡管百度在Scaling Law研究上的貢獻(xiàn)被忽視,但其早期的研究成果為深度學(xué)習(xí)的發(fā)展提供了重要的理論基礎(chǔ)。隨著這一領(lǐng)域的不斷深入,人們對(duì)Scaling Law的理解將更加全面,百度的努力也將得到應(yīng)有的認(rèn)可。
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡(jiǎn)介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189

粵公網(wǎng)安備 44011502001135號(hào)