大模型量化訓(xùn)練極限在哪?騰訊混元提出低比特浮點數(shù)訓(xùn)練Scaling Laws
這項研究為大模型訓(xùn)練中的浮點數(shù)量化提供了重要的理論指導(dǎo)。

原標(biāo)題:大模型量化訓(xùn)練極限在哪?騰訊混元提出低比特浮點數(shù)訓(xùn)練Scaling Laws
文章來源:機器之心
內(nèi)容字?jǐn)?shù):6315字
騰訊混元團(tuán)隊揭示大模型浮點量化訓(xùn)練Scaling Laws
本文總結(jié)了騰訊混元團(tuán)隊發(fā)表的論文《Scaling Laws for Floating–Point Quantization Training》的主要內(nèi)容,該論文深入研究了大模型浮點量化訓(xùn)練的規(guī)律,并提出了相應(yīng)的Scaling Laws,為大模型低精度訓(xùn)練提供了重要的理論指導(dǎo)。
1. 研究背景與意義
大模型訓(xùn)練和推理成本高昂,低比特量化技術(shù)成為降低成本的關(guān)鍵方法。現(xiàn)有研究多關(guān)注整數(shù)量化,而實際應(yīng)用中浮點量化因其精度損失更小而更常用。因此,騰訊混元團(tuán)隊對浮點量化訓(xùn)練進(jìn)行了系統(tǒng)研究,以期建立指導(dǎo)大模型浮點量化訓(xùn)練的Scaling Laws。
2. 浮點量化訓(xùn)練的Scaling Laws
該團(tuán)隊進(jìn)行了366組不同參數(shù)規(guī)模和精度的浮點量化訓(xùn)練實驗,最終得出了一個統(tǒng)一的Scaling Law公式,該公式綜合考慮了模型大小(N)、訓(xùn)練數(shù)據(jù)量(D)、指數(shù)位(E)、尾數(shù)位(M)以及量化時放縮因子共享粒度(B)等因素對模型訓(xùn)練損失的影響:
該公式中,前三項基于經(jīng)典的Chinchilla Scaling Law,第四項表示浮點量化帶來的額外損失。研究發(fā)現(xiàn),E、M和B的聯(lián)合項可以看作某種形式的精度表示,大模型在過低精度下無法承載過高的知識密度,導(dǎo)致額外損失。
3. 關(guān)鍵結(jié)論與發(fā)現(xiàn)
基于該Scaling Laws,研究團(tuán)隊得出以下重要結(jié)論:
- 模型極限效果與最佳數(shù)據(jù)量: 任意低精度大模型浮點量化訓(xùn)練都存在一個模型極限效果及對應(yīng)的最佳數(shù)據(jù)量。超過此最佳數(shù)據(jù)量繼續(xù)增加數(shù)據(jù)反而會降低模型效果。
- 最佳性價比精度: 在限定計算資源下,理論預(yù)測的最佳性價比的浮點數(shù)量化訓(xùn)練精度落在4-8比特之間。
- 指數(shù)位與尾數(shù)位的最佳配比: 研究推導(dǎo)出了指數(shù)位和尾數(shù)位對模型效果的定量關(guān)系,并給出了最佳配比規(guī)律。
- 放縮因子共享粒度影響: 驗證損失與放縮因子共享粒度B的對數(shù)成正比例關(guān)系。
- 精度與參數(shù)量的“匯率”關(guān)系: 在資源受限的情況下,精度P和參數(shù)量N之間存在一個類似“匯率”的關(guān)系,指導(dǎo)資源配置。
- 無法跨越的效果屏障: 每個精度都存在一個對應(yīng)的極限效果,無論使用多少數(shù)據(jù)都無法超越。超過此極限數(shù)據(jù)量,繼續(xù)增加數(shù)據(jù)反而有害。
4. 研究價值與意義
這項研究為大模型訓(xùn)練中的浮點數(shù)量化提供了重要的理論指導(dǎo)。它不僅明確了在給定資源和精度下的最優(yōu)參數(shù)配置策略,幫助提高訓(xùn)練效率和降低成本,而且對于推動大模型在實際應(yīng)用中的更廣泛部署具有關(guān)鍵意義。同時,該研究也為硬件制造商優(yōu)化浮點運算能力提供了依據(jù),為研究人員在大模型優(yōu)化和創(chuàng)新方面開辟了新的思路和方向。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號