Karpathy又整活兒了!一天訓練出GPT-2、成本還驟降100倍,網(wǎng)友:dream老黃把價格再打下來
AIGC動態(tài)歡迎閱讀
原標題:Karpathy又整活兒了!一天訓練出GPT-2、成本還驟降100倍,網(wǎng)友:dream老黃把價格再打下來
關鍵字:模型,報告,美元,代碼,數(shù)據(jù)
文章來源:AI前線
內(nèi)容字數(shù):0字
內(nèi)容摘要:
整理 | 核子可樂、褚杏娟
單個八 H100 節(jié)點 +24 小時 +672 美元 +llm.c= 成功重現(xiàn) GPT-2(1.6B)
OpenAI 創(chuàng)始成員、前研究科學家 Andrej Karpathy 最近嘗試在 llm.c 中重現(xiàn)了 GPT-2。這里的 GPT-2 是 15.58B 參數(shù)的完整版本,最初亮相于 OpenAI 2019 年 2 月 14 日發(fā)布的博文《Better Language Models and their Implications》當中。
“2019 年時,GPT-2 的訓練工作還是一個涉及整個團隊、需要規(guī)模化投入的項目。但如今 5 年過去,隨著計算(H100 GPU)、軟件(CUDA\cuBLAS、cuDNN、FlashAttention)和數(shù)據(jù)(例如 FineWeb-Edu 數(shù)據(jù)集)等層面的改進,我們已經(jīng)能夠在 24 個小時之內(nèi)憑借單個八 H100 節(jié)點成功對該模型進行重現(xiàn),且總成本僅為 672 美元。”Karpathy 說道。
Karpathy 在 2017 年離職后進入特斯拉擔任 AI 高級總監(jiān),但在 2023 年再次回到 OpenAI 組建團隊,并推
原文鏈接:Karpathy又整活兒了!一天訓練出GPT-2、成本還驟降100倍,網(wǎng)友:dream老黃把價格再打下來
聯(lián)系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發(fā)者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業(yè)界實踐案例,助你全面擁抱AIGC。