低內(nèi)存占用也能實(shí)現(xiàn)滿(mǎn)血訓(xùn)練?!北理北大港中文MMLab推出Fira訓(xùn)練框架

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:低內(nèi)存占用也能實(shí)現(xiàn)滿(mǎn)血訓(xùn)練?!北理北大港中文MMLab推出Fira訓(xùn)練框架
關(guān)鍵字:梯度,矩陣,內(nèi)存,模型,方法
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
Fira團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI內(nèi)存占用小,訓(xùn)練表現(xiàn)也要好……大模型訓(xùn)練成功實(shí)現(xiàn)二者兼得。
來(lái)自北理、北大和港中文MMLab的研究團(tuán)隊(duì)提出了一種滿(mǎn)足低秩約束的大模型全秩訓(xùn)練框架——Fira,成功打破了傳統(tǒng)低秩方法中內(nèi)存占用與訓(xùn)練表現(xiàn)的“非此即彼”僵局。
展開(kāi)來(lái)說(shuō)——
為了突破內(nèi)存瓶頸,許多低秩訓(xùn)練方法應(yīng)運(yùn)而生,如LoRA(分解參數(shù)矩陣)和GaLore(分解梯度矩陣)。
△圖1:從宏觀(guān)層面分析三種內(nèi)存高效低秩訓(xùn)練方法然而,如上圖所示,LoRA將訓(xùn)練局限于參數(shù)的低秩子空間,降低了模型的表征能力,難以實(shí)現(xiàn)預(yù)訓(xùn)練;GaLore將訓(xùn)練局限于梯度的低秩子空間,造成了子空間外梯度的信息損失。
相較于全秩訓(xùn)練,這兩種方法由于施加了低秩約束,會(huì)導(dǎo)致訓(xùn)練表現(xiàn)有所下降。
但是,若提高秩值,則會(huì)相應(yīng)地增加內(nèi)存占用。
因此,在實(shí)際應(yīng)用中,它們需要在確保訓(xùn)練表現(xiàn)與降低內(nèi)存消耗之間找到一個(gè)恰當(dāng)?shù)钠胶恻c(diǎn)。
這引發(fā)了一個(gè)核心問(wèn)題:
能否在維持低秩約束以確保內(nèi)存高效的同時(shí),實(shí)現(xiàn)全秩參數(shù)、全秩梯度的訓(xùn)練以提升表現(xiàn)?
Fira即為最新答案,它有三大亮點(diǎn):
即插即用:Fira簡(jiǎn)單易用,其核心實(shí)現(xiàn)僅涉及兩行關(guān)鍵
原文鏈接:低內(nèi)存占用也能實(shí)現(xiàn)滿(mǎn)血訓(xùn)練?!北理北大港中文MMLab推出Fira訓(xùn)練框架
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:

粵公網(wǎng)安備 44011502001135號(hào)