AIGC動態歡迎閱讀
原標題:OpenAI創始大神手搓千行C代碼訓練GPT,附PyTorch遷移教程
關鍵字:項目,模型,表示,嘉賓,峰會
文章來源:量子位
內容字數:4674字
內容摘要:
明敏 發自 凹非寺量子位 | 公眾號 QbitiAI大神卡帕西(Andrej Karpathy)剛“復工”,立馬帶來神作:
純C語言訓練GPT,1000行代碼搞定!,不用現成的深度學習框架,純手搓。
發布僅幾個小時,已經攬星2.3k。
它可以立即編譯和運行,和PyTorch完全兼容。
卡帕西使用的示例是GPT-2,但Llama 2和Gemma等也適用。
項目發布后,他還給出了從PyTorch遷移到C的教程。
網友們直呼:他甚至都不用C++……
而且就連怎么讓大模型如法炮制的提示詞,他也放了出來。現在已經有人在用Devin嘗試ing。
手動實現每個層前向/反向傳播選擇用GPT-2的原因很簡單,有模型權重,采用了堆棧式的Transformer模型結構。
項目核心的重點包括:
直接在C/CUDA上訓練LLM,速度接近PyTorch
通過在CPU版本中使用SIMD指令(如AVX2和NEON)聊加速CPU版本
支持更先進的架構,比如Llama2和Gemma
卡帕西解釋,他在開始時分配了所有所需內存,訓練期間內存占用保持不變,只是數據在不同批次之間動態流動。
關鍵在于手動實現每個單獨層的前向傳播和
原文鏈接:OpenAI創始大神手搓千行C代碼訓練GPT,附PyTorch遷移教程
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...