AIGC動態歡迎閱讀
原標題:Karpathy最新四小時視頻教程:從零復現GPT-2,通宵運行即搞定
關鍵字:視頻,部分內容,梯度,模型,部分
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:杜偉這是Karpathy「Neural Networks:zero to hero」系列視頻的最新內容。AI 大牛 Andrej Karpathy 又「上新」了,這次一口氣放出了長達四個小時的視頻。
視頻主題為「讓我們來復現 GPT-2(1.24 億參數)」。
Karpathy 表示,此次視頻之所以這么長,是因為它很全面:從空文件開始,最后得到一個 GPT-2(124M)模型。
具體實現步驟包括如下:
首先構建 GPT-2 網絡。
然后對其進行優化,以便快速訓練。
然后通過參考 GPT-2 和 GPT-3 論文來設置訓練運行優化和超參數。
然后進行模型評估。
然后祈禱好運,并去睡覺。
第二天早上,查看結果并享受有趣的模型生成。通宵運行的結果甚至非常接近 GPT-3(124M)模型。
該視頻以「Zero To Hero」系列視頻為基礎,有些地方參考了以往視頻。你可以根據該視頻構建 nanoGPT 存儲庫,到最后大約有 90% 相似。
當然,Karpathy 上傳了相關的 GitHub 存儲庫「build-nanogpt」,包含了全部提交歷史,這樣你可以一步步看到視頻中
原文鏈接:Karpathy最新四小時視頻教程:從零復現GPT-2,通宵運行即搞定
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...