五分鐘速成：用神級項目訓練GPT-2，Andrej Karpathy也為之點贊！

八塊 H100，五分鐘完事。

原標題：神級項目訓練GPT-2僅需5分鐘，Andrej Karpathy都點贊
文章來源：機器之心
內容字數：5471字

隨著人工智能領域的發展，模型訓練的效率得到了顯著提升。近期，Keller Jordan開發的「Modded-NanoGPT」項目使得在8塊H100 GPU上訓練GPT-2模型的時間從45分鐘縮短至僅5分鐘，令人矚目。

此前，Andrej Karpathy通過純C語言實現的llm.c項目引起了廣泛關注。該項目的目標是簡化大模型的訓練，但在實現GPT-2的過程中仍需耗費大量時間。在短短幾個月內，Keller Jordan的Modded-NanoGPT項目展示了技術的迅猛進步。

Modded-NanoGPT采用了一系列先進的技術，包括FlexAttention、旋轉嵌入、QK-Norm等，顯著提高了訓練速度。利用大序列長度，Jordan在FlexAttention的幫助下，將訓練時間進一步壓縮。雖然在HellaSwag上的準確率略有下降，但結果依然令人滿意。

用戶可以通過簡單的命令安裝所需的依賴并啟動訓練。項目支持在多個GPU上進行訓練，只需適當調整參數，便能在短時間內完成模型訓練，輸出具有124M活躍參數的Transformer模型。

此外，項目還引入了Keller Jordan自研的Muon優化器，這種優化器以其高效的內存使用和優秀的樣本效率，成為當前已知最快的優化器之一。通過一系列實驗，Muon優化器展現出在大規模訓練中的潛力。

Keller Jordan的Modded-NanoGPT項目不僅大幅提升了訓練效率，還展現了未來大模型訓練的可能方向。盡管快速訓練可能面臨擴展性的問題，但其在1.5B參數模型上的表現顯示出良好的性價比，為研究者提供了新的選擇和思路。

如需詳細了解該項目及其技術細節，歡迎訪問該項目的GitHub頁面。

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...