1塊3090就能訓(xùn)7B大模型，山東大學(xué)低帶寬低顯存訓(xùn)練法，解決顯卡限購卡脖子

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布夕小瑤科技說

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：1塊3090就能訓(xùn)7B大模型，山東大學(xué)低帶寬低顯存訓(xùn)練法，解決顯卡限購卡脖子
關(guān)鍵字：參數(shù),神經(jīng)元,性能,方法,模型
文章來源：夕小瑤科技說
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 謝年年
大模型的全參數(shù)微調(diào)對(duì)資源要求非常高，當(dāng)前業(yè)界更傾向于采用LoRA，Parallel Adapter等參數(shù)高效微調(diào)（PEFT）方法，通過添加只占用LLMs全部參數(shù)很小部分（例如，0.1%）的可訓(xùn)練模塊，損失小部分精度以換取低資源高效率的微調(diào)。
但對(duì)于問答（QA）等知識(shí)密集型任務(wù)來說，當(dāng)可訓(xùn)練參數(shù)受限時(shí)，性能下降較為顯著。如下圖所示，相比全參數(shù)微調(diào)，其他PEFT方法下降10%左右。
但我們也從中發(fā)現(xiàn)，在Parallel Adapter中隨著適配器參數(shù)數(shù)量的增加，答案準(zhǔn)確率呈現(xiàn)出明顯的上升趨勢(shì)。大約需要更新10%的參數(shù)，可以達(dá)到全量微調(diào)的性能。但這一方案需要遠(yuǎn)超24G的GPU內(nèi)存支持，這在實(shí)際應(yīng)用中仍然面臨較高的資源成本。
今天我們介紹一篇來自山東大學(xué)的研究，在可訓(xùn)練參數(shù)增加的同時(shí)顯著降低了GPU內(nèi)存使用，可實(shí)現(xiàn)僅需1塊3090（24G）訓(xùn)練7B大模型。并且在保持相近性能的同時(shí)，相比其他PEFT方法，內(nèi)存占用率下降了50%。
論文標(biāo)題:MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter
論文鏈

原文鏈接：1塊3090就能訓(xùn)7B大模型，山東大學(xué)低帶寬低顯存訓(xùn)練法，解決顯卡限購卡脖子

聯(lián)系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡(jiǎn)介：專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人，互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠，兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作：zym5189

閱讀原文