
AIGC動態歡迎閱讀
原標題:五年后的今天,訓練GPT-2只需不到700刀、24小時,Karpathy又整新活
關鍵字:模型,報告,多少錢,節點,內存
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:杜偉、澤南論老黃賣鏟子的技術含量。2019 年 2 月,OpenAI 發布了 GPT-2,因為在文本生成上的優異表現,以及對于預訓練 Transformer 架構的充分運用,被認為是如今大預言模型的「始祖」。
五年后的今天,訓練 GPT-2 這樣 15 億參數的大模型,只需要花費 672 美元,在一個 8XH100 的 GPU 節點上跑 24 個小時就可以搞定了。
本周四,前特斯拉 Autopilot 負責人、OpenAI 科學家 Andrej Karpathy 在他純 C 語言復現 GPT-2 大模型的項目「llm.c」的最新進展中分享了他的訓練心得:令人難以置信的是,由于計算硬件(英偉達 H100 GPU)、軟件(CUDA、cuBLAS、cuDNN、FlashAttention 等)和數據質量(例如 FineWeb-Edu 數據集)的改進,過去 5 年間,大語言模型的訓練成本大幅下降。Karpathy 表示,對于此次實踐,算法遵循 GPT-2/3 論文基本保持原樣不變。
當年 OpenAI 訓練 GPT-2 花費了多少錢?這是個至今仍然未知的數字。Karpath
原文鏈接:五年后的今天,訓練GPT-2只需不到700刀、24小時,Karpathy又整新活
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號