24GB單卡全量微調(diào)Llama 3-8B,僅需添加一行代碼

AIGC動態(tài)歡迎閱讀
原標(biāo)題:24GB單卡全量微調(diào)Llama 3-8B,僅需添加一行代碼
關(guān)鍵字:解讀,模型,算法,參數(shù),顯存
文章來源:機器之心
內(nèi)容字?jǐn)?shù):2801字
內(nèi)容摘要:
自ChatGPT問世以來,大型語言模型在各個領(lǐng)域引起了廣泛興趣,并催生了基于語言模型的應(yīng)用,包括但不限于自動文本生成、信息檢索、智能助理、機器人以及智能教育系統(tǒng)等。這些應(yīng)用的表現(xiàn)和效果往往取決于模型本身的對話能力、邏輯推理能力以及上下文理解能力等核心特征。在實際應(yīng)用中,為了滿足不同領(lǐng)域?qū)δP湍芰Φ膫€性化需求,研究人員通常會基于預(yù)訓(xùn)練的大型語言模型進行微調(diào),以適應(yīng)特定任務(wù)的要求。
然而,微調(diào)具有一定規(guī)模的語言模型需要大量的計算資源,其中顯存容量往往成為主要限制因素。主流的優(yōu)化算法如Adam在訓(xùn)練過程中需要存儲模型參數(shù)、梯度信息以及優(yōu)化器狀態(tài)。舉例來說,當(dāng)訓(xùn)練一個擁有70億個參數(shù)的模型時,以上參數(shù)將占用超過120GB的顯卡內(nèi)存。然而,主流消費級顯卡如RTX 3090/4090僅有24GB的顯存,而AI訓(xùn)練專用顯卡A100的顯存也僅有80GB。因此,訓(xùn)練規(guī)模較大的模型不可避免地對計算資源提出了巨大需求,而且由于需要多塊顯卡并行訓(xùn)練,也帶來了工程實現(xiàn)上的諸多挑戰(zhàn)。
在本研究中,來自香港中文大學(xué)(深圳)的研究者通過將傳統(tǒng)的塊坐標(biāo)下降算法與大模型優(yōu)化結(jié)合,提出BAdam算法,將內(nèi)存開銷大幅降至
原文鏈接:24GB單卡全量微調(diào)Llama 3-8B,僅需添加一行代碼
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號