今日最熱論文：Scaling Law后繼乏力，量化也不管用，AI大佬齊刷刷附議

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：今日最熱論文：Scaling Law后繼乏力，量化也不管用，AI大佬齊刷刷附議
關(guān)鍵字：精度,模型,數(shù)據(jù),損失,性能
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

一水發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI幾十萬(wàn)人關(guān)注，一發(fā)表即被行業(yè)大佬評(píng)為“這是很長(zhǎng)時(shí)間以來(lái)最重要的論文”。
哈佛、斯坦福、MIT等團(tuán)隊(duì)的一項(xiàng)研究表明：訓(xùn)練的token越多，需要的精度就越高。
例如，Llama-3在不同數(shù)據(jù)量下（圓形8B、三角形70B、星星405B），隨著數(shù)據(jù)集大小的增加，計(jì)算最優(yōu)的精度也會(huì)增加。
換句話就是，對(duì)于大規(guī)模的訓(xùn)練任務(wù)，低精度的量化可能不再足夠有效。
按照結(jié)論，對(duì)Scaling Law的遵循意味著我們需要保持更高精度，然而一直以來(lái)，人們通常會(huì)選擇量化（將連續(xù)值或多精度值轉(zhuǎn)換為較低精度）來(lái)節(jié)省計(jì)算資源。
一旦結(jié)論成立，GPU的設(shè)計(jì)和功能可能也需要相應(yīng)調(diào)整，因?yàn)閭鹘y(tǒng)上，GPU的性能提升部分依賴于對(duì)低精度計(jì)算的優(yōu)化。
正如艾倫AI研究所科學(xué)家所指出的：
這是很長(zhǎng)時(shí)間以來(lái)最重要的論文。它用強(qiáng)有力的證據(jù)表明，我們正在達(dá)到量化的極限。論文得出的結(jié)論對(duì)整個(gè)領(lǐng)域以及GPU的未來(lái)有著廣泛的影響。
與此同時(shí)，研究得出了兩個(gè)重要結(jié)論：
如果量化是在后訓(xùn)練階段進(jìn)行的，那么更多的預(yù)訓(xùn)練數(shù)據(jù)最終可能反而有害；
在高（BF16）和下一代（FP4）精度下進(jìn)行預(yù)訓(xùn)練可能都是次優(yōu)

原文鏈接：今日最熱論文：Scaling Law后繼乏力，量化也不管用，AI大佬齊刷刷附議