State of GPT:大神Andrej揭秘OpenAI大模型原理和訓(xùn)練過(guò)程
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:State of GPT:大神Andrej揭秘OpenAI大模型原理和訓(xùn)練過(guò)程
關(guān)鍵字:模型,標(biāo)記,提示,數(shù)據(jù),基礎(chǔ)
文章來(lái)源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
前言
OpenAI的創(chuàng)始人之一,大神Andrej Karpthy剛在微軟Build 2023開(kāi)發(fā)者大會(huì)上做了專(zhuān)題演講:State of GPT(GPT的現(xiàn)狀)。
在這個(gè)樸實(shí)無(wú)華的題目之下,Andrej帶來(lái)的是一場(chǎng)超級(jí)精彩的分享。
他詳細(xì)介紹了如何從GPT基礎(chǔ)模型一直訓(xùn)練出ChatGPT這樣的助手模型(assistant model)。作者不曾在其他公開(kāi)視頻里看過(guò)類(lèi)似的內(nèi)容,這或許是OpenAI官方第一次詳細(xì)闡述其大模型內(nèi)部原理和RLHF訓(xùn)練細(xì)節(jié)。
難能可貴的是,Andrej不僅深入了細(xì)節(jié), 還高屋建瓴的抽象了大模型實(shí)現(xiàn)中的諸多概念,牛人的洞察就是不一樣。
比如,Andrej非常形象的把當(dāng)前LLM大語(yǔ)言模型比喻為人類(lèi)思考模式的系統(tǒng)一(快系統(tǒng)),這是相對(duì)于反應(yīng)慢但具有更長(zhǎng)線(xiàn)推理的系統(tǒng)二(慢系統(tǒng))而言。這只是演講里諸多閃光點(diǎn)的其中一個(gè)。
并且,Andrej真的有當(dāng)導(dǎo)師的潛力,把非常技術(shù)的內(nèi)容講得深入淺出,而又異常透徹。這個(gè)演講完全可以讓非專(zhuān)業(yè)人士也能理解,并且,認(rèn)真看完演講后會(huì)有一種醍醐灌頂?shù)母杏X(jué)。
這場(chǎng)主題演講是如此精彩,以至于作者認(rèn)為,所有關(guān)心LLM大語(yǔ)言模型的人都不容錯(cuò)過(guò)。所以,在制作
原文鏈接:State of GPT:大神Andrej揭秘OpenAI大模型原理和訓(xùn)練過(guò)程
聯(lián)系作者
文章來(lái)源:人工智能學(xué)家
作者微信:AItists
作者簡(jiǎn)介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)