蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws
Distillation Scaling Laws.

原標(biāo)題:蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4957字
蘋果研究揭示蒸餾擴(kuò)展定律:量化估算蒸餾模型性能
機(jī)器之心近日報道了蘋果研究人員提出的蒸餾擴(kuò)展定律(Distillation Scaling Laws),該定律為量化估算知識蒸餾模型的性能提供了理論依據(jù)。知識蒸餾作為大模型領(lǐng)域的重要技術(shù),能夠在壓縮模型體積的同時保持性能,甚至提升精度和降低時延。蘋果的研究則更進(jìn)一步,通過該定律,我們可以根據(jù)計算預(yù)算及其在教師和學(xué)生模型之間的分配來預(yù)測蒸餾模型的性能。
1. 蒸餾擴(kuò)展定律的核心內(nèi)容
蒸餾擴(kuò)展定律基于大規(guī)模實驗,研究了教師模型大小(N_T)、教師訓(xùn)練token數(shù)量(D_T)、學(xué)生模型大小(N_S)和學(xué)生訓(xùn)練token數(shù)量(D_S)對學(xué)生模型性能(交叉熵L_S)的影響。研究發(fā)現(xiàn),學(xué)生模型的交叉熵可以由蒸餾擴(kuò)展定律預(yù)測,而教師模型的交叉熵L_T(N_T,D_T)起著關(guān)鍵作用。 L_T對L_S的影響遵循冪律關(guān)系,這種關(guān)系體現(xiàn)了“能力差距”現(xiàn)象:過強(qiáng)的教師模型反而可能導(dǎo)致學(xué)生模型性能較差。該定律還考慮了教師模型的預(yù)訓(xùn)練成本,為計算資源的最佳分配提供了指導(dǎo)。
2. 實驗設(shè)計與結(jié)果
為了得出蒸餾擴(kuò)展定律,蘋果研究人員進(jìn)行了大規(guī)模實驗,涵蓋了參數(shù)范圍從1.43億到126億的教師和學(xué)生模型,以及高達(dá)5120億token的訓(xùn)練數(shù)據(jù)。實驗設(shè)計采用多種方案,包括固定教師模型變化學(xué)生模型,以及固定學(xué)生模型變化教師模型等,以全面考察各種因素的影響。實驗結(jié)果表明,在特定條件下,學(xué)生模型可以超越教師模型的性能,展現(xiàn)出“弱到強(qiáng)”的泛化能力。
3. 蒸餾與監(jiān)督學(xué)習(xí)的比較
研究比較了蒸餾和監(jiān)督學(xué)習(xí)在不同計算預(yù)算下的性能。結(jié)果顯示,當(dāng)教師模型已存在或具有多用途時,且學(xué)生模型的計算資源不超過定律給出的閾值,蒸餾的效率高于監(jiān)督學(xué)習(xí)。反之,則監(jiān)督學(xué)習(xí)更有效。
4. 蒸餾擴(kuò)展定律的意義
蒸餾擴(kuò)展定律的提出,降低了大規(guī)模使用知識蒸餾的風(fēng)險,為優(yōu)化教師和學(xué)生模型的計算資源分配提供了理論指導(dǎo)。該定律為構(gòu)建更小、更強(qiáng)大、推理成本更低的模型提供了路線圖,并增強(qiáng)了測試時擴(kuò)展的可行性。這項研究是目前已知最大規(guī)模的蒸餾受控實證研究,為知識蒸餾領(lǐng)域提供了重要的理論和實踐指導(dǎo)。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號