五年后的今天,訓練GPT-2只需不到700刀、24小時,Karpathy又整新活
AIGC動態(tài)歡迎閱讀
原標題:五年后的今天,訓練GPT-2只需不到700刀、24小時,Karpathy又整新活
關(guān)鍵字:模型,報告,多少錢,節(jié)點,內(nèi)存
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
機器之心報道
編輯:杜偉、澤南論老黃賣鏟子的技術(shù)含量。2019 年 2 月,OpenAI 發(fā)布了 GPT-2,因為在文本生成上的優(yōu)異表現(xiàn),以及對于預訓練 Transformer 架構(gòu)的充分運用,被認為是如今大預言模型的「始祖」。
五年后的今天,訓練 GPT-2 這樣 15 億參數(shù)的大模型,只需要花費 672 美元,在一個 8XH100 的 GPU 節(jié)點上跑 24 個小時就可以搞定了。
本周四,前特斯拉 Autopilot 負責人、OpenAI 科學家 Andrej Karpathy 在他純 C 語言復現(xiàn) GPT-2 大模型的項目「llm.c」的最新進展中分享了他的訓練心得:令人難以置信的是,由于計算硬件(英偉達 H100 GPU)、軟件(CUDA、cuBLAS、cuDNN、FlashAttention 等)和數(shù)據(jù)質(zhì)量(例如 FineWeb-Edu 數(shù)據(jù)集)的改進,過去 5 年間,大語言模型的訓練成本大幅下降。Karpathy 表示,對于此次實踐,算法遵循 GPT-2/3 論文基本保持原樣不變。
當年 OpenAI 訓練 GPT-2 花費了多少錢?這是個至今仍然未知的數(shù)字。Karpath
原文鏈接:五年后的今天,訓練GPT-2只需不到700刀、24小時,Karpathy又整新活
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺