AIGC動態歡迎閱讀
原標題:低內存占用也能實現滿血訓練?!北理北大港中文MMLab推出Fira訓練框架
關鍵字:梯度,矩陣,內存,模型,方法
文章來源:量子位
內容字數:0字
內容摘要:
Fira團隊 投稿量子位 | 公眾號 QbitAI內存占用小,訓練表現也要好……大模型訓練成功實現二者兼得。
來自北理、北大和港中文MMLab的研究團隊提出了一種滿足低秩約束的大模型全秩訓練框架——Fira,成功打破了傳統低秩方法中內存占用與訓練表現的“非此即彼”僵局。
展開來說——
為了突破內存瓶頸,許多低秩訓練方法應運而生,如LoRA(分解參數矩陣)和GaLore(分解梯度矩陣)。
△圖1:從宏觀層面分析三種內存高效低秩訓練方法然而,如上圖所示,LoRA將訓練局限于參數的低秩子空間,降低了模型的表征能力,難以實現預訓練;GaLore將訓練局限于梯度的低秩子空間,造成了子空間外梯度的信息損失。
相較于全秩訓練,這兩種方法由于施加了低秩約束,會導致訓練表現有所下降。
但是,若提高秩值,則會相應地增加內存占用。
因此,在實際應用中,它們需要在確保訓練表現與降低內存消耗之間找到一個恰當的平衡點。
這引發了一個核心問題:
能否在維持低秩約束以確保內存高效的同時,實現全秩參數、全秩梯度的訓練以提升表現?
Fira即為最新答案,它有三大亮點:
即插即用:Fira簡單易用,其核心實現僅涉及兩行關鍵
原文鏈接:低內存占用也能實現滿血訓練?!北理北大港中文MMLab推出Fira訓練框架
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...