Distillation Scaling Laws.
原標題:蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws
文章來源:機器之心
內容字數:4957字
蘋果研究揭示蒸餾擴展定律:量化估算蒸餾模型性能
機器之心近日報道了蘋果研究人員提出的蒸餾擴展定律(Distillation Scaling Laws),該定律為量化估算知識蒸餾模型的性能提供了理論依據。知識蒸餾作為大模型領域的重要技術,能夠在壓縮模型體積的同時保持性能,甚至提升精度和降低時延。蘋果的研究則更進一步,通過該定律,我們可以根據計算預算及其在教師和學生模型之間的分配來預測蒸餾模型的性能。
1. 蒸餾擴展定律的核心內容
蒸餾擴展定律基于大規模實驗,研究了教師模型大小(N_T)、教師訓練token數量(D_T)、學生模型大小(N_S)和學生訓練token數量(D_S)對學生模型性能(交叉熵L_S)的影響。研究發現,學生模型的交叉熵可以由蒸餾擴展定律預測,而教師模型的交叉熵L_T(N_T,D_T)起著關鍵作用。 L_T對L_S的影響遵循冪律關系,這種關系體現了“能力差距”現象:過強的教師模型反而可能導致學生模型性能較差。該定律還考慮了教師模型的預訓練成本,為計算資源的最佳分配提供了指導。
2. 實驗設計與結果
為了得出蒸餾擴展定律,蘋果研究人員進行了大規模實驗,涵蓋了參數范圍從1.43億到126億的教師和學生模型,以及高達5120億token的訓練數據。實驗設計采用多種方案,包括固定教師模型變化學生模型,以及固定學生模型變化教師模型等,以全面考察各種因素的影響。實驗結果表明,在特定條件下,學生模型可以超越教師模型的性能,展現出“弱到強”的泛化能力。
3. 蒸餾與監督學習的比較
研究比較了蒸餾和監督學習在不同計算預算下的性能。結果顯示,當教師模型已存在或具有多用途時,且學生模型的計算資源不超過定律給出的閾值,蒸餾的效率高于監督學習。反之,則監督學習更有效。
4. 蒸餾擴展定律的意義
蒸餾擴展定律的提出,降低了大規模使用知識蒸餾的風險,為優化教師和學生模型的計算資源分配提供了理論指導。該定律為構建更小、更強大、推理成本更低的模型提供了路線圖,并增強了測試時擴展的可行性。這項研究是目前已知最大規模的蒸餾受控實證研究,為知識蒸餾領域提供了重要的理論和實踐指導。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺