24GB單卡全量微調Llama 3-8B，僅需添加一行代碼

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：24GB單卡全量微調Llama 3-8B，僅需添加一行代碼
關鍵字：解讀,模型,算法,參數,顯存
文章來源：機器之心
內容字數：2801字

內容摘要：

自ChatGPT問世以來，大型語言模型在各個領域引起了廣泛興趣，并催生了基于語言模型的應用，包括但不限于自動文本生成、信息檢索、智能助理、機器人以及智能教育系統等。這些應用的表現和效果往往取決于模型本身的對話能力、邏輯推理能力以及上下文理解能力等核心特征。在實際應用中，為了滿足不同領域對模型能力的個性化需求，研究人員通常會基于預訓練的大型語言模型進行微調，以適應特定任務的要求。
然而，微調具有一定規模的語言模型需要大量的計算資源，其中顯存容量往往成為主要限制因素。主流的優化算法如Adam在訓練過程中需要存儲模型參數、梯度信息以及優化器狀態。舉例來說，當訓練一個擁有70億個參數的模型時，以上參數將占用超過120GB的顯卡內存。然而，主流消費級顯卡如RTX 3090/4090僅有24GB的顯存，而AI訓練專用顯卡A100的顯存也僅有80GB。因此，訓練規模較大的模型不可避免地對計算資源提出了巨大需求，而且由于需要多塊顯卡并行訓練，也帶來了工程實現上的諸多挑戰。
在本研究中，來自香港中文大學（深圳）的研究者通過將傳統的塊坐標下降算法與大模型優化結合，提出BAdam算法，將內存開銷大幅降至

原文鏈接：24GB單卡全量微調Llama 3-8B，僅需添加一行代碼