今日最熱論文:Scaling Law后繼乏力,量化也不管用,AI大佬齊刷刷附議
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:今日最熱論文:Scaling Law后繼乏力,量化也不管用,AI大佬齊刷刷附議
關(guān)鍵字:精度,模型,數(shù)據(jù),損失,性能
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
一水 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI幾十萬(wàn)人關(guān)注,一發(fā)表即被行業(yè)大佬評(píng)為“這是很長(zhǎng)時(shí)間以來(lái)最重要的論文”。
哈佛、斯坦福、MIT等團(tuán)隊(duì)的一項(xiàng)研究表明:訓(xùn)練的token越多,需要的精度就越高。
例如,Llama-3在不同數(shù)據(jù)量下(圓形8B、三角形70B、星星405B),隨著數(shù)據(jù)集大小的增加,計(jì)算最優(yōu)的精度也會(huì)增加。
換句話就是,對(duì)于大規(guī)模的訓(xùn)練任務(wù),低精度的量化可能不再足夠有效。
按照結(jié)論,對(duì)Scaling Law的遵循意味著我們需要保持更高精度,然而一直以來(lái),人們通常會(huì)選擇量化(將連續(xù)值或多精度值轉(zhuǎn)換為較低精度)來(lái)節(jié)省計(jì)算資源。
一旦結(jié)論成立,GPU的設(shè)計(jì)和功能可能也需要相應(yīng)調(diào)整,因?yàn)閭鹘y(tǒng)上,GPU的性能提升部分依賴于對(duì)低精度計(jì)算的優(yōu)化。
正如艾倫AI研究所科學(xué)家所指出的:
這是很長(zhǎng)時(shí)間以來(lái)最重要的論文。它用強(qiáng)有力的證據(jù)表明,我們正在達(dá)到量化的極限。論文得出的結(jié)論對(duì)整個(gè)領(lǐng)域以及GPU的未來(lái)有著廣泛的影響。
與此同時(shí),研究得出了兩個(gè)重要結(jié)論:
如果量化是在后訓(xùn)練階段進(jìn)行的,那么更多的預(yù)訓(xùn)練數(shù)據(jù)最終可能反而有害;
在高(BF16)和下一代(FP4)精度下進(jìn)行預(yù)訓(xùn)練可能都是次優(yōu)
原文鏈接:今日最熱論文:Scaling Law后繼乏力,量化也不管用,AI大佬齊刷刷附議
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介: