八塊 H100,五分鐘完事。
原標題:神級項目訓練GPT-2僅需5分鐘,Andrej Karpathy都點贊
文章來源:機器之心
內容字數:5471字
新技術提升大模型訓練效率
隨著人工智能領域的發展,模型訓練的效率得到了顯著提升。近期,Keller Jordan開發的「Modded-NanoGPT」項目使得在8塊H100 GPU上訓練GPT-2模型的時間從45分鐘縮短至僅5分鐘,令人矚目。
項目背景
此前,Andrej Karpathy通過純C語言實現的llm.c項目引起了廣泛關注。該項目的目標是簡化大模型的訓練,但在實現GPT-2的過程中仍需耗費大量時間。在短短幾個月內,Keller Jordan的Modded-NanoGPT項目展示了技術的迅猛進步。
技術創新
Modded-NanoGPT采用了一系列先進的技術,包括FlexAttention、旋轉嵌入、QK-Norm等,顯著提高了訓練速度。利用大序列長度,Jordan在FlexAttention的幫助下,將訓練時間進一步壓縮。雖然在HellaSwag上的準確率略有下降,但結果依然令人滿意。
訓練流程
用戶可以通過簡單的命令安裝所需的依賴并啟動訓練。項目支持在多個GPU上進行訓練,只需適當調整參數,便能在短時間內完成模型訓練,輸出具有124M活躍參數的Transformer模型。
Muon優化器的應用
此外,項目還引入了Keller Jordan自研的Muon優化器,這種優化器以其高效的內存使用和優秀的樣本效率,成為當前已知最快的優化器之一。通過一系列實驗,Muon優化器展現出在大規模訓練中的潛力。
總結與展望
Keller Jordan的Modded-NanoGPT項目不僅大幅提升了訓練效率,還展現了未來大模型訓練的可能方向。盡管快速訓練可能面臨擴展性的問題,但其在1.5B參數模型上的表現顯示出良好的性價比,為研究者提供了新的選擇和思路。
如需詳細了解該項目及其技術細節,歡迎訪問該項目的GitHub頁面。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺