算力直降97%,GPT-3存儲(chǔ)只用20MB?!這篇直接在1.58-bit下訓(xùn)練模型的新論文火了
不需要反向傳播
原標(biāo)題:算力直降97%,GPT-3存儲(chǔ)只用20MB?!這篇直接在1.58-bit下訓(xùn)練模型的新論文火了
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):3484字
1750億參數(shù)GPT-3只需20MB存儲(chǔ)?低精度訓(xùn)練新技術(shù)引爆網(wǎng)絡(luò)
近日,一篇關(guān)于低精度訓(xùn)練大語(yǔ)言模型的論文在網(wǎng)絡(luò)上引發(fā)熱議,其核心技術(shù)“noise_step”允許1750億參數(shù)的GPT-3模型僅需20MB存儲(chǔ)空間,并大幅降低算力消耗(減少97%)和存儲(chǔ)消耗(減少90%)。該技術(shù)由機(jī)器學(xué)習(xí)工程師Will小哥提出,其突破性之處在于無(wú)需反向傳播,直接在1.58-bit低精度下訓(xùn)練模型。
1. 顛覆傳統(tǒng):無(wú)需反向傳播的低精度訓(xùn)練
傳統(tǒng)的深度學(xué)習(xí)模型訓(xùn)練依賴于反向傳播算法,計(jì)算量巨大。而noise_step技術(shù)則另辟蹊徑,通過(guò)巧妙地利用雅可比向量積(JVP)方法估計(jì)梯度,從而繞過(guò)了反向傳播過(guò)程。JVP方法通過(guò)在前向傳播中引入隨機(jī)性,生成隨機(jī)向量,并計(jì)算其與目標(biāo)函數(shù)梯度的對(duì)齊度來(lái)估計(jì)梯度。這種方法無(wú)需存儲(chǔ)或傳輸大量數(shù)據(jù),大幅降低了算力和存儲(chǔ)需求。
2. 低精度訓(xùn)練的優(yōu)勢(shì):存儲(chǔ)壓縮與高效微調(diào)
noise_step允許模型在1.58-bit(三元)精度下進(jìn)行訓(xùn)練,這使得模型參數(shù)存儲(chǔ)空間大幅縮減。更重要的是,該技術(shù)允許存儲(chǔ)訓(xùn)練步驟而非權(quán)重,進(jìn)一步壓縮模型尺寸, potentially enabling the download of a SOTA model within a second. 由于使用了偽隨機(jī)噪聲,整個(gè)訓(xùn)練過(guò)程可以被一個(gè)種子值復(fù)現(xiàn),并且可以恢復(fù)每個(gè)訓(xùn)練步驟,這使得微調(diào)變得更加高效,甚至可以對(duì)過(guò)去的訓(xùn)練步驟進(jìn)行編輯(例如翻轉(zhuǎn)或屏蔽),從而實(shí)現(xiàn)更精細(xì)的模型控制和調(diào)整。
3. 分布式訓(xùn)練的效率提升
在分布式訓(xùn)練中,noise_step通過(guò)減少每個(gè)擾動(dòng)所需的位數(shù),顯著降低了通信量,從而提高了訓(xùn)練效率。這對(duì)于訓(xùn)練大型語(yǔ)言模型至關(guān)重要,因?yàn)樗梢约涌煊?xùn)練速度,并降低通信成本。
4. 潛在風(fēng)險(xiǎn)與未來(lái)展望
雖然noise_step技術(shù)極具優(yōu)勢(shì),但也存在潛在的風(fēng)險(xiǎn)。由于模型可以通過(guò)少量訓(xùn)練步驟來(lái)重建,模型泄露的風(fēng)險(xiǎn)也隨之增加。然而,這項(xiàng)技術(shù)的潛力巨大,它有望徹底改變大型語(yǔ)言模型的訓(xùn)練和部署方式,使之更加高效、經(jīng)濟(jì)和易于訪問(wèn)。
5. 論文及代碼獲取
由于arXiv的審核問(wèn)題,論文目前已發(fā)布在GitHub上,感興趣的讀者可以自行查閱。同時(shí),作者也提供了一個(gè)CPU實(shí)現(xiàn)過(guò)程的Colab notebook,方便大家進(jìn)行學(xué)習(xí)和實(shí)驗(yàn)。
總而言之,noise_step技術(shù)的出現(xiàn)為大語(yǔ)言模型的訓(xùn)練帶來(lái)了性的變化,它不僅降低了訓(xùn)練成本,也為模型的微調(diào)和分布式訓(xùn)練提供了新的思路。未來(lái),隨著該技術(shù)的進(jìn)一步發(fā)展和完善,我們有望看到更加高效、便捷的大語(yǔ)言模型應(yīng)用。
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破