來自當年百度硅谷人工智能實驗室 (SVAIL) 系統團隊
原標題:Scaling Law百度最早提出?!OpenAI/Claude都受它啟發,Ilya出現在致謝名單中
文章來源:量子位
內容字數:4717字
Scaling Law的起源與發展
近年來,深度學習的發展引起了廣泛關注,其中“Scaling Law”這一概念尤為重要。令人意外的是,Scaling Law的早期研究并非源于OpenAI,而是來自于2017年由百度硅谷人工智能實驗室(SVAIL)主導的研究。該研究由吳恩達主持,探討了訓練集大小、計算規模與模型精度之間的關系。
研究的主要發現
百度的研究通過大規模的實證研究揭示了深度學習中的一些規律,包括:
- 泛化誤差與訓練集大小之間呈現冪律關系,訓練集增大時,泛化誤差以一定的冪次下降。
- 模型大小與數據大小之間存在Scaling關系,模型大小增長速度通常慢于數據大小。
該團隊針對機器翻譯、語言建模、圖像分類和語音識別等多個領域進行了測試,發現不同領域的學習曲線和模型規模表現出相似的規律。
具體領域的研究成果
在機器翻譯領域,隨著訓練集規模的增大,優化難度增加,模型可能出現容量不足的問題。在語言建模方面,最佳擬合模型隨訓練分片大小的增長表現出次線性增長。而在圖像分類中,同樣觀察到了冪律學習曲線,準確率在小規模訓練集上趨于平穩。語音識別領域則顯示出模型準確率與數據量之間的復雜關系。
對未來的影響
這些發現對深度學習的研究和實踐具有重要意義。它們不僅能幫助研究者優化模型,還能指導數據集的增長決策和計算系統的設計。研究團隊的成果強調了持續計算擴展的重要性,為后續的研究奠定了基礎。
總結與反思
這一“冷知識”再次引發了人們對Scaling Law起源的關注,很多研究者紛紛重溫這篇被低估的論文。值得注意的是,許多當年參與研究的學者如今已在各大機構繼續從事大模型相關研究,推動了深度學習領域的進一步發展。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...