算力直降97%,GPT-3存儲只用20MB?!這篇直接在1.58-bit下訓練模型的新論文火了
不需要反向傳播
原標題:算力直降97%,GPT-3存儲只用20MB?!這篇直接在1.58-bit下訓練模型的新論文火了
文章來源:量子位
內容字數(shù):3484字
1750億參數(shù)GPT-3只需20MB存儲?低精度訓練新技術引爆網(wǎng)絡
近日,一篇關于低精度訓練大語言模型的論文在網(wǎng)絡上引發(fā)熱議,其核心技術“noise_step”允許1750億參數(shù)的GPT-3模型僅需20MB存儲空間,并大幅降低算力消耗(減少97%)和存儲消耗(減少90%)。該技術由機器學習工程師Will小哥提出,其突破性之處在于無需反向傳播,直接在1.58-bit低精度下訓練模型。
1. 顛覆傳統(tǒng):無需反向傳播的低精度訓練
傳統(tǒng)的深度學習模型訓練依賴于反向傳播算法,計算量巨大。而noise_step技術則另辟蹊徑,通過巧妙地利用雅可比向量積(JVP)方法估計梯度,從而繞過了反向傳播過程。JVP方法通過在前向傳播中引入隨機性,生成隨機向量,并計算其與目標函數(shù)梯度的對齊度來估計梯度。這種方法無需存儲或傳輸大量數(shù)據(jù),大幅降低了算力和存儲需求。
2. 低精度訓練的優(yōu)勢:存儲壓縮與高效微調
noise_step允許模型在1.58-bit(三元)精度下進行訓練,這使得模型參數(shù)存儲空間大幅縮減。更重要的是,該技術允許存儲訓練步驟而非權重,進一步壓縮模型尺寸, potentially enabling the download of a SOTA model within a second. 由于使用了偽隨機噪聲,整個訓練過程可以被一個種子值復現(xiàn),并且可以恢復每個訓練步驟,這使得微調變得更加高效,甚至可以對過去的訓練步驟進行編輯(例如翻轉或屏蔽),從而實現(xiàn)更精細的模型控制和調整。
3. 分布式訓練的效率提升
在分布式訓練中,noise_step通過減少每個擾動所需的位數(shù),顯著降低了通信量,從而提高了訓練效率。這對于訓練大型語言模型至關重要,因為它可以加快訓練速度,并降低通信成本。
4. 潛在風險與未來展望
雖然noise_step技術極具優(yōu)勢,但也存在潛在的風險。由于模型可以通過少量訓練步驟來重建,模型泄露的風險也隨之增加。然而,這項技術的潛力巨大,它有望徹底改變大型語言模型的訓練和部署方式,使之更加高效、經(jīng)濟和易于訪問。
5. 論文及代碼獲取
由于arXiv的審核問題,論文目前已發(fā)布在GitHub上,感興趣的讀者可以自行查閱。同時,作者也提供了一個CPU實現(xiàn)過程的Colab notebook,方便大家進行學習和實驗。
總而言之,noise_step技術的出現(xiàn)為大語言模型的訓練帶來了性的變化,它不僅降低了訓練成本,也為模型的微調和分布式訓練提供了新的思路。未來,隨著該技術的進一步發(fā)展和完善,我們有望看到更加高效、便捷的大語言模型應用。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破