百度研究院:Scaling Law的突破性發(fā)現(xiàn),顛覆AI發(fā)展新局面!
原標題:是百度太低調(diào)了嗎?網(wǎng)傳Scaling Law開山之作來自百度研究院
文章來源:夕小瑤科技說
內(nèi)容字數(shù):5161字
1. 引言
最近,Anthropic的CEO Dario Amodei在采訪中提到,Scaling Law的概念最早在2014年于百度被發(fā)現(xiàn),這一消息引發(fā)了廣泛關注。Scaling Law,或稱為“擴展法則”,指的是隨著模型規(guī)模和訓練數(shù)據(jù)的增加,模型性能顯著提升的現(xiàn)象。
2. Scaling Law的起源
根據(jù)Amodei的說法,2014年他與吳恩達在百度工作時觀察到了這一規(guī)律。雖然OpenAI于2020年發(fā)表了相關論文,使得Scaling Law廣為人知,但實際上,早在2017年,百度的研究就已揭示了深度學習模型的泛化誤差與模型大小和訓練集規(guī)模之間的可預測關系。
3. 百度2017年論文的貢獻
百度的論文《Deep Learning Scaling Is Predictable,Empirically》通過大規(guī)模實證研究,探討了四個機器學習領域中模型性能與數(shù)據(jù)集規(guī)模的關系。研究表明,隨著訓練數(shù)據(jù)的增加,泛化誤差和模型大小呈現(xiàn)冪律縮放關系。盡管模型改進會改變冪律截距,但冪律指數(shù)保持不變。這項研究為后來的Scaling Law奠定了基礎。
4. 研究方法與實驗
研究團隊選取了不同規(guī)模的數(shù)據(jù)集,并對模型進行超參數(shù)調(diào)整,以觀察性能變化。他們發(fā)現(xiàn),當訓練集足夠大時,模型性能會趨近于理論上的不可約誤差。這一發(fā)現(xiàn)為理解深度學習中的Scaling Law提供了重要的實證支持。
5. 百度的AI發(fā)展歷程
回顧百度在AI領域的發(fā)展,李彥宏曾試圖引進圖靈獎得主Geoffrey Hinton的團隊,但未能成功。隨后,他帶領百度成立了硅谷人工智能實驗室,招募了吳恩達等多位AI領域的知名專家,推動了百度在AI研究上的進展。
6. 結(jié)論
盡管百度在Scaling Law研究上的貢獻被忽視,但其早期的研究成果為深度學習的發(fā)展提供了重要的理論基礎。隨著這一領域的不斷深入,人們對Scaling Law的理解將更加全面,百度的努力也將得到應有的認可。
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:專業(yè)、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務合作:zym5189