AIGC動態歡迎閱讀
原標題:Karpathy又整活兒了!一天訓練出GPT-2、成本還驟降100倍,網友:dream老黃把價格再打下來
關鍵字:模型,報告,美元,代碼,數據
文章來源:AI前線
內容字數:0字
內容摘要:
整理 | 核子可樂、褚杏娟
單個八 H100 節點 +24 小時 +672 美元 +llm.c= 成功重現 GPT-2(1.6B)
OpenAI 創始成員、前研究科學家 Andrej Karpathy 最近嘗試在 llm.c 中重現了 GPT-2。這里的 GPT-2 是 15.58B 參數的完整版本,最初亮相于 OpenAI 2019 年 2 月 14 日發布的博文《Better Language Models and their Implications》當中。
“2019 年時,GPT-2 的訓練工作還是一個涉及整個團隊、需要規模化投入的項目。但如今 5 年過去,隨著計算(H100 GPU)、軟件(CUDA\cuBLAS、cuDNN、FlashAttention)和數據(例如 FineWeb-Edu 數據集)等層面的改進,我們已經能夠在 24 個小時之內憑借單個八 H100 節點成功對該模型進行重現,且總成本僅為 672 美元。”Karpathy 說道。
Karpathy 在 2017 年離職后進入特斯拉擔任 AI 高級總監,但在 2023 年再次回到 OpenAI 組建團隊,并推
原文鏈接:Karpathy又整活兒了!一天訓練出GPT-2、成本還驟降100倍,網友:dream老黃把價格再打下來
聯系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...