算力直降97%，GPT-3存儲(chǔ)只用20MB？！這篇直接在1.58-bit下訓(xùn)練模型的新論文火了

不需要反向傳播

原標(biāo)題：算力直降97%，GPT-3存儲(chǔ)只用20MB？！這篇直接在1.58-bit下訓(xùn)練模型的新論文火了
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：3484字

1750億參數(shù)GPT-3只需20MB存儲(chǔ)？低精度訓(xùn)練新技術(shù)引爆網(wǎng)絡(luò)

近日，一篇關(guān)于低精度訓(xùn)練大語(yǔ)言模型的論文在網(wǎng)絡(luò)上引發(fā)熱議，其核心技術(shù)“noise_step”允許1750億參數(shù)的GPT-3模型僅需20MB存儲(chǔ)空間，并大幅降低算力消耗（減少97%）和存儲(chǔ)消耗（減少90%）。該技術(shù)由機(jī)器學(xué)習(xí)工程師Will小哥提出，其突破性之處在于無(wú)需反向傳播，直接在1.58-bit低精度下訓(xùn)練模型。

1. 顛覆傳統(tǒng)：無(wú)需反向傳播的低精度訓(xùn)練

傳統(tǒng)的深度學(xué)習(xí)模型訓(xùn)練依賴于反向傳播算法，計(jì)算量巨大。而noise_step技術(shù)則另辟蹊徑，通過(guò)巧妙地利用雅可比向量積（JVP）方法估計(jì)梯度，從而繞過(guò)了反向傳播過(guò)程。JVP方法通過(guò)在前向傳播中引入隨機(jī)性，生成隨機(jī)向量，并計(jì)算其與目標(biāo)函數(shù)梯度的對(duì)齊度來(lái)估計(jì)梯度。這種方法無(wú)需存儲(chǔ)或傳輸大量數(shù)據(jù)，大幅降低了算力和存儲(chǔ)需求。

2. 低精度訓(xùn)練的優(yōu)勢(shì)：存儲(chǔ)壓縮與高效微調(diào)

noise_step允許模型在1.58-bit（三元）精度下進(jìn)行訓(xùn)練，這使得模型參數(shù)存儲(chǔ)空間大幅縮減。更重要的是，該技術(shù)允許存儲(chǔ)訓(xùn)練步驟而非權(quán)重，進(jìn)一步壓縮模型尺寸， potentially enabling the download of a SOTA model within a second. 由于使用了偽隨機(jī)噪聲，整個(gè)訓(xùn)練過(guò)程可以被一個(gè)種子值復(fù)現(xiàn)，并且可以恢復(fù)每個(gè)訓(xùn)練步驟，這使得微調(diào)變得更加高效，甚至可以對(duì)過(guò)去的訓(xùn)練步驟進(jìn)行編輯（例如翻轉(zhuǎn)或屏蔽），從而實(shí)現(xiàn)更精細(xì)的模型控制和調(diào)整。

3. 分布式訓(xùn)練的效率提升

在分布式訓(xùn)練中，noise_step通過(guò)減少每個(gè)擾動(dòng)所需的位數(shù)，顯著降低了通信量，從而提高了訓(xùn)練效率。這對(duì)于訓(xùn)練大型語(yǔ)言模型至關(guān)重要，因?yàn)樗梢约涌煊?xùn)練速度，并降低通信成本。

4. 潛在風(fēng)險(xiǎn)與未來(lái)展望

雖然noise_step技術(shù)極具優(yōu)勢(shì)，但也存在潛在的風(fēng)險(xiǎn)。由于模型可以通過(guò)少量訓(xùn)練步驟來(lái)重建，模型泄露的風(fēng)險(xiǎn)也隨之增加。然而，這項(xiàng)技術(shù)的潛力巨大，它有望徹底改變大型語(yǔ)言模型的訓(xùn)練和部署方式，使之更加高效、經(jīng)濟(jì)和易于訪問(wèn)。

5. 論文及代碼獲取

由于arXiv的審核問(wèn)題，論文目前已發(fā)布在GitHub上，感興趣的讀者可以自行查閱。同時(shí)，作者也提供了一個(gè)CPU實(shí)現(xiàn)過(guò)程的Colab notebook，方便大家進(jìn)行學(xué)習(xí)和實(shí)驗(yàn)。

總而言之，noise_step技術(shù)的出現(xiàn)為大語(yǔ)言模型的訓(xùn)練帶來(lái)了性的變化，它不僅降低了訓(xùn)練成本，也為模型的微調(diào)和分布式訓(xùn)練提供了新的思路。未來(lái)，隨著該技術(shù)的進(jìn)一步發(fā)展和完善，我們有望看到更加高效、便捷的大語(yǔ)言模型應(yīng)用。

聯(lián)系作者

文章來(lái)源：量子位
作者微信：
作者簡(jiǎn)介：追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

閱讀原文

# AIGC動(dòng)態(tài)# 158-bit模型訓(xùn)練 # 低存儲(chǔ)AI模型 # 小型化GPT模型 # 極低算力AI # 高效AI訓(xùn)練方法

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

算力直降97%，GPT-3存儲(chǔ)只用20MB？！這篇直接在1.58-bit下訓(xùn)練模型的新論文火了

不需要反向傳播

1750億參數(shù)GPT-3只需20MB存儲(chǔ)？低精度訓(xùn)練新技術(shù)引爆網(wǎng)絡(luò)

1. 顛覆傳統(tǒng)：無(wú)需反向傳播的低精度訓(xùn)練

2. 低精度訓(xùn)練的優(yōu)勢(shì)：存儲(chǔ)壓縮與高效微調(diào)

3. 分布式訓(xùn)練的效率提升

4. 潛在風(fēng)險(xiǎn)與未來(lái)展望

5. 論文及代碼獲取

聯(lián)系作者

ECCV 2024 Oral！上交大聯(lián)合網(wǎng)易伏羲開(kāi)源用于對(duì)話人臉生成的高效解耦框架EDTalk | 一作譚帥博士主講預(yù)告

國(guó)產(chǎn) AI 視頻第一梯隊(duì)比拼！讓 Sora 翻車的動(dòng)作，可靈們能做好嗎

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)