<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        算力直降97%,GPT-3存儲(chǔ)只用20MB?!這篇直接在1.58-bit下訓(xùn)練模型的新論文火了

        AIGC動(dòng)態(tài)7個(gè)月前發(fā)布 量子位
        465 0 0

        不需要反向傳播

        算力直降97%,GPT-3存儲(chǔ)只用20MB?!這篇直接在1.58-bit下訓(xùn)練模型的新論文火了

        原標(biāo)題:算力直降97%,GPT-3存儲(chǔ)只用20MB?!這篇直接在1.58-bit下訓(xùn)練模型的新論文火了
        文章來(lái)源:量子位
        內(nèi)容字?jǐn)?shù):3484字

        1750億參數(shù)GPT-3只需20MB存儲(chǔ)?低精度訓(xùn)練新技術(shù)引爆網(wǎng)絡(luò)

        近日,一篇關(guān)于低精度訓(xùn)練大語(yǔ)言模型的論文在網(wǎng)絡(luò)上引發(fā)熱議,其核心技術(shù)“noise_step”允許1750億參數(shù)的GPT-3模型僅需20MB存儲(chǔ)空間,并大幅降低算力消耗(減少97%)和存儲(chǔ)消耗(減少90%)。該技術(shù)由機(jī)器學(xué)習(xí)工程師Will小哥提出,其突破性之處在于無(wú)需反向傳播,直接在1.58-bit低精度下訓(xùn)練模型。

        1. 顛覆傳統(tǒng):無(wú)需反向傳播的低精度訓(xùn)練

        傳統(tǒng)的深度學(xué)習(xí)模型訓(xùn)練依賴于反向傳播算法,計(jì)算量巨大。而noise_step技術(shù)則另辟蹊徑,通過(guò)巧妙地利用雅可比向量積(JVP)方法估計(jì)梯度,從而繞過(guò)了反向傳播過(guò)程。JVP方法通過(guò)在前向傳播中引入隨機(jī)性,生成隨機(jī)向量,并計(jì)算其與目標(biāo)函數(shù)梯度的對(duì)齊度來(lái)估計(jì)梯度。這種方法無(wú)需存儲(chǔ)或傳輸大量數(shù)據(jù),大幅降低了算力和存儲(chǔ)需求。

        2. 低精度訓(xùn)練的優(yōu)勢(shì):存儲(chǔ)壓縮與高效微調(diào)

        noise_step允許模型在1.58-bit(三元)精度下進(jìn)行訓(xùn)練,這使得模型參數(shù)存儲(chǔ)空間大幅縮減。更重要的是,該技術(shù)允許存儲(chǔ)訓(xùn)練步驟而非權(quán)重,進(jìn)一步壓縮模型尺寸, potentially enabling the download of a SOTA model within a second. 由于使用了偽隨機(jī)噪聲,整個(gè)訓(xùn)練過(guò)程可以被一個(gè)種子值復(fù)現(xiàn),并且可以恢復(fù)每個(gè)訓(xùn)練步驟,這使得微調(diào)變得更加高效,甚至可以對(duì)過(guò)去的訓(xùn)練步驟進(jìn)行編輯(例如翻轉(zhuǎn)或屏蔽),從而實(shí)現(xiàn)更精細(xì)的模型控制和調(diào)整。

        3. 分布式訓(xùn)練的效率提升

        在分布式訓(xùn)練中,noise_step通過(guò)減少每個(gè)擾動(dòng)所需的位數(shù),顯著降低了通信量,從而提高了訓(xùn)練效率。這對(duì)于訓(xùn)練大型語(yǔ)言模型至關(guān)重要,因?yàn)樗梢约涌煊?xùn)練速度,并降低通信成本。

        4. 潛在風(fēng)險(xiǎn)與未來(lái)展望

        雖然noise_step技術(shù)極具優(yōu)勢(shì),但也存在潛在的風(fēng)險(xiǎn)。由于模型可以通過(guò)少量訓(xùn)練步驟來(lái)重建,模型泄露的風(fēng)險(xiǎn)也隨之增加。然而,這項(xiàng)技術(shù)的潛力巨大,它有望徹底改變大型語(yǔ)言模型的訓(xùn)練和部署方式,使之更加高效、經(jīng)濟(jì)和易于訪問(wèn)。

        5. 論文及代碼獲取

        由于arXiv的審核問(wèn)題,論文目前已發(fā)布在GitHub上,感興趣的讀者可以自行查閱。同時(shí),作者也提供了一個(gè)CPU實(shí)現(xiàn)過(guò)程的Colab notebook,方便大家進(jìn)行學(xué)習(xí)和實(shí)驗(yàn)。

        總而言之,noise_step技術(shù)的出現(xiàn)為大語(yǔ)言模型的訓(xùn)練帶來(lái)了性的變化,它不僅降低了訓(xùn)練成本,也為模型的微調(diào)和分布式訓(xùn)練提供了新的思路。未來(lái),隨著該技術(shù)的進(jìn)一步發(fā)展和完善,我們有望看到更加高效、便捷的大語(yǔ)言模型應(yīng)用。


        聯(lián)系作者

        文章來(lái)源:量子位
        作者微信:
        作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 一个人免费日韩不卡视频| 亚洲欧美中文日韩视频| aa在线免费观看| 免费国产在线观看| 久久精品国产亚洲av瑜伽| 国语成本人片免费av无码| 中文有码亚洲制服av片| 好吊妞998视频免费观看在线| 色老板亚洲视频免在线观| 最近高清国语中文在线观看免费| 亚洲五月丁香综合视频| 免费观看男人免费桶女人视频 | APP在线免费观看视频| 亚洲欧洲日产国码一级毛片| 亚洲精品无码专区在线| 97人伦色伦成人免费视频| 亚洲欧美成人一区二区三区| 国产伦一区二区三区免费| 香蕉97碰碰视频免费| 亚洲精品无码永久中文字幕| 国产精品免费大片| 国产精品亚洲精品观看不卡| 日本免费人成黄页网观看视频| 免费看一级一级人妻片| 亚洲精品卡2卡3卡4卡5卡区| 最好看最新的中文字幕免费| 91成人免费在线视频| 亚洲AV综合永久无码精品天堂| 亚洲av麻豆aⅴ无码电影| 免费看成人AA片无码视频吃奶| 亚洲精品中文字幕无码AV| 最近中文字幕mv手机免费高清| 免费又黄又爽又猛大片午夜| 亚洲av无码国产精品色午夜字幕 | 成人免费激情视频| 色噜噜噜噜亚洲第一| 情人伊人久久综合亚洲| 性做久久久久久免费观看| 一级毛片免费毛片毛片| 免费国产a国产片高清网站| 中文字幕成人免费高清在线|