1塊3090就能訓(xùn)7B大模型,山東大學(xué)低帶寬低顯存訓(xùn)練法,解決顯卡限購卡脖子
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:1塊3090就能訓(xùn)7B大模型,山東大學(xué)低帶寬低顯存訓(xùn)練法,解決顯卡限購卡脖子
關(guān)鍵字:參數(shù),神經(jīng)元,性能,方法,模型
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 謝年年
大模型的全參數(shù)微調(diào)對(duì)資源要求非常高,當(dāng)前業(yè)界更傾向于采用LoRA,Parallel Adapter等參數(shù)高效微調(diào)(PEFT)方法,通過添加只占用LLMs全部參數(shù)很小部分(例如,0.1%)的可訓(xùn)練模塊,損失小部分精度以換取低資源高效率的微調(diào)。
但對(duì)于問答(QA)等知識(shí)密集型任務(wù)來說,當(dāng)可訓(xùn)練參數(shù)受限時(shí),性能下降較為顯著。如下圖所示,相比全參數(shù)微調(diào),其他PEFT方法下降10%左右。
但我們也從中發(fā)現(xiàn),在Parallel Adapter中隨著適配器參數(shù)數(shù)量的增加,答案準(zhǔn)確率呈現(xiàn)出明顯的上升趨勢(shì)。大約需要更新10%的參數(shù),可以達(dá)到全量微調(diào)的性能。但這一方案需要遠(yuǎn)超24G的GPU內(nèi)存支持,這在實(shí)際應(yīng)用中仍然面臨較高的資源成本。
今天我們介紹一篇來自山東大學(xué)的研究,在可訓(xùn)練參數(shù)增加的同時(shí)顯著降低了GPU內(nèi)存使用,可實(shí)現(xiàn)僅需1塊3090(24G)訓(xùn)練7B大模型。并且在保持相近性能的同時(shí),相比其他PEFT方法,內(nèi)存占用率下降了50%。
論文標(biāo)題:MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter
論文鏈
原文鏈接:1塊3090就能訓(xùn)7B大模型,山東大學(xué)低帶寬低顯存訓(xùn)練法,解決顯卡限購卡脖子
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189