直擊現(xiàn)場|OpenAI首個開發(fā)者日
繼今年春天發(fā)布 GPT-4 之后,OpenAI 又創(chuàng)造了一個不眠夜。過去一年,ChatGPT 絕對是整個科技領(lǐng)域最熱的詞匯。OpenAI 也依靠 ChatGPT 取得了驚人的成績:總結(jié)來說,OpenAI 證實 ChatGPT 目前每周有超過 1 億活躍用戶,超過 200 萬開者使用 API 等進行開發(fā),與超過 92% 的財富 500 強公司合作。?
作為備受期待的首屆開發(fā)者大會,Altman 今天也帶來了一系列全新的 AI 模型和工具,包括如下:
- 全新的 GPT-4 Turbo 模型
- 更可控的輸出:函數(shù)調(diào)用增強、JSON 模式
- 開放新的 API:DALLE-3、GPT-4 Turbo with vision、TTS 和 Whisper V3
- GPT-4 微調(diào)、自定義模型
- GPTs:創(chuàng)建自定義版本的 ChatGPT
- GPT Store 即將上線
- Assistants API:更接近 AI 智能體的體驗

從這些更新的展示中可以明顯感覺到,OpenAI 正在努力把 ChatGPT 構(gòu)建成一個自動化程度更高的 AI 智能體,這個智能體不再是「紙上談兵」,而是越來越多地通過操縱現(xiàn)有應(yīng)用對物理世界產(chǎn)生影響。比如,在活動現(xiàn)場,一位 OpenAI 的工作人員通過語音與 ChatGPT 對話,給在場的每一位觀眾發(fā)放了 500 美元 OpenAI 代金券。?
GPT-4 Turbo:128k 上下文、價格更便宜會上首先亮相的是 GPT-4 的全新版本 GPT-4 Turbo。我們知道,OpenAI 在今年 3 月發(fā)布了 GPT-4 初始版本,并在 7 月廣泛提供給了所有開發(fā)者。Sam Altman 在現(xiàn)場一一解析了 GPT-4 Turbo 的幾大亮點。?
首先,GPT-4 Turbo 比 GPT-4 更強大,支持 128k 上下文窗口,可以在單個 prompt 中處理超過 300 頁的文本。更長的上下文意味著模型輸出結(jié)果更加準確。?
其次,GPT-4 Turbo 能夠了解更近、更豐富的世界知識,外部文檔和數(shù)據(jù)庫的截止日期更新到了 2023 年 4 月。與之相比,GPT-4 的知識庫截止日期為 2021 年 9 月。?
接下來是函數(shù)調(diào)用更新。函數(shù)調(diào)用允許將應(yīng)用程序函數(shù)或外部 API 描繪給模型,并讓模型智能選擇「包含調(diào)用這些函數(shù)的參數(shù)」的 JSON 對象。今天,GPT-4 Turbo 在這方面做了幾項改進,比如在一條消息中能夠調(diào)用多個函數(shù)。用戶可以在發(fā)送一條消息時請求多個操作,如「打開車窗并關(guān)閉空調(diào)」。此外函數(shù)調(diào)用的準確性也得到提升,GPT-4 Turbo 更有可能返回正確的函數(shù)參數(shù)。?
與此同時,指令遵循性能得到提升并支持了 JSON 模式。其中在需要嚴格指令遵循的任務(wù)上,GPT-4 Turbo 的表現(xiàn)比以往的模型更好,比如生成特定格式(始終以 XML 來響應(yīng))。GPT-4 Turbo 支持了新的 JSON 模式,確保模型使用有效的 JSON 進行響應(yīng)。新的 API 參數(shù) response_format 限制模型輸出以生成語確的 JSON 對象。該模式對開發(fā)者在完成(Chat Completions)API 中生成 JSON 非常有用。?
?多模態(tài)能力也是大會的重點內(nèi)容,為此 OpenAI 開放了全新的 API。GPT-4 Turbo 集成了 DALL?E 3,能夠接受并處理圖像輸入(即 GPT-4 Turbo with vision),生成標題、分析現(xiàn)實世界的圖像、閱讀帶圖表的文檔等。對于 GPT-4 Turbo with vision,開發(fā)者可以通過 API 中的 gpt-4-vision-preview 來訪問。OpenAI 計劃為主要的 GPT-4 Turbo 模型提供視覺支持,價格取決于輸入圖像的大小,例如像素 1080×1080 的圖像需要的成本為 0.00765 美元。同樣地,開發(fā)者可以通過圖像 API 將 DALL?E 3 直接集成到他們的應(yīng)用程序和產(chǎn)品中。與之前版本的 DALL?E 類似,該 API 內(nèi)置審核功能,可以幫助開發(fā)者保護自己的應(yīng)用程序免遭濫用。OpenAI 提供了不同的格式和質(zhì)量選項,生成一張圖像的起價為 0.04 美元。在文本轉(zhuǎn)換語音領(lǐng)域,開發(fā)者現(xiàn)在可通過文本到語音(text-to-speech)API,將文本轉(zhuǎn)化為人類質(zhì)量的語音。全新 TTS 模型提供了 6 種預(yù)設(shè)聲音和兩種模型變體即 tts-1 和 tts-1-hd,其中 tts 針對實時用例進行優(yōu)化,tts-1-hd 針對質(zhì)量進行優(yōu)化。每輸入 1000 字符的起價為 0.015 美元。?
有了新版本 GPT-4 Turbo,OpenAI 也沒有「忘了」GPT-4。現(xiàn)在,GPT-4 微調(diào)正在實驗訪問階段。OpenAI 正在創(chuàng)建一個用于 GPT-4 微調(diào)的實驗性訪問程序。不過與 GPT-3.5 微調(diào)獲得的實質(zhì)收益相比,GPT-4 微調(diào)需要更多工作才能對基礎(chǔ)模型實現(xiàn)有意義的改進。未來,隨著 GPT-4 微調(diào)在質(zhì)量和安全性方面得到提升,GPT-3.5 微調(diào)的活躍使用者可以選擇在他們的微調(diào)控制中心應(yīng)用 GPT-4 程序。?
在微調(diào)之外,對于那些需要更多定制化功能的組織機構(gòu),OpenAI 啟動了自定義模型(Custom Models)計劃,允許組織機構(gòu)與 OpenAI 研究人員一起針對特定領(lǐng)域來訓(xùn)練定制化 GPT-4。這包括修改模型訓(xùn)練過程的每一步,從額外的領(lǐng)域特定預(yù)訓(xùn)練到運行針對特定領(lǐng)域的定制化 RL 訓(xùn)練后(post-training)過程。組織機構(gòu)對其定制化模型擁有獨家訪問權(quán)。OpenAI 不會提供給其他客戶或與其他客戶共享,也不會用于訓(xùn)練其他模型。此外提供給 OpenAI 以訓(xùn)練定制化模型的專有數(shù)據(jù)不會在其他上下文中重復(fù)使用。不過,OpenAI 表示,目前自定義模型的功能有限且成本高昂。?
最后是價格。如你我所見,GPT-4 Turbo 性能更強了,但價格卻被打下來了。對比 GPT-4,GPT-4 Turbo 的輸入 token 價格是其 1/3,為 0.01 美元 / 1000token;輸出 token 價格是其 1/2,為 0.03 美元 / 1000token。?
同樣地,GPT-3.5 Turbo 16K 以及 GPT-3.5 Turbo 4K、16K 微調(diào)的價格也都有一定程度的下降,具體參見下圖。?
目前如何使用 GPT-4 Turbo 呢?所有付費開發(fā)者都可以通過 API 中的 gpt-4-1106-preview 來試用 GPT-4 Turbo。未來幾周,OpenAI 將發(fā)布穩(wěn)定的生產(chǎn)就緒(production-ready)模型。GPTs 與 GPT 商店新模型的發(fā)布令人激動。但接下來這一發(fā)布,可能會令你聯(lián)想到十幾年前蘋果的發(fā)布會,這也是眾多網(wǎng)友認為的最大亮點。?
Sam Atlman 發(fā)布了 GTPs,讓用戶們無需代碼,結(jié)合自己的指令、外部知識和能力創(chuàng)建自定義版本的 ChatGPT。自從推出 ChatGPT 以來,用戶們一直期待能夠定制 ChatGPT。OpenAI 在 7 月推出了自定義指令,可讓用戶設(shè)置一些首選項,但這無法完全滿足用戶。許多高級用戶會維護一份提示和指令集列表,并將它們手動復(fù)制到 ChatGPT 中。GPTs 的發(fā)布能夠自動幫用戶們完成這項工作了。?
從現(xiàn)場展示來看,為了創(chuàng)建一個 GPT,OpenAI 允許用戶使用一個名為 GPT Builder 的對話式 AI 模型,讓用戶使用自然語言就能構(gòu)建自定義的 GPT。
Sam Altman 現(xiàn)場展示如何通過自然語言構(gòu)建自定義 GPT。在這個例子中,Altman 要求 ChatGPT 創(chuàng)建一個可以給創(chuàng)業(yè)者提供建議的 GPT。在接收到指令后,ChatGPT 不僅構(gòu)建了這個 GPT,還提供了頭像、命名建議。除了使用內(nèi)置功能之外,用戶還可以通過向 GPT 提供一個或多個 API 來定義定制化 action。與插件一樣,定制 action 允許 GPTs 集成外部數(shù)據(jù)或與現(xiàn)實世界交互。此舉目的非常簡單,OpenAI 要充分挖掘社區(qū)開發(fā)者的力量,「我們相信最驚人的 GPT 產(chǎn)品將來自社區(qū)。無論您是教育家、教練,還是只是喜歡構(gòu)建有用工具的人,您都不需要了解編碼來制作工具并分享您的專業(yè)知識。」同時,OpenAI 也會在本月底上線 GPT Store,讓開發(fā)者們分享、發(fā)布自己創(chuàng)建的 GPTs。?
沒錯,你是不是想到了蘋果商店?OpenAI 明確表示 GPT Store 上會有 GPT 的排行榜。活動上,Altman 表示 OpenAI 將向最常用、最有用的 GPT 支付收入的一部分,但是否會向發(fā)布 GPT 的創(chuàng)建者們收費還未知。目前,GPTs 可供 ChatGPT Plus 和企業(yè)用戶試用。?
OpenAI 工作人員現(xiàn)場演示 GPTs。她構(gòu)建了一個能與個人行程表聯(lián)通的 GPT,然后以對話的形式命令 GPT 給 Altman 發(fā)信息,結(jié)果 Altman 真的收到了。Assistants API在 keynote 環(huán)節(jié),Sam Altman 還發(fā)布了「Assistants API」,這是他們幫助開發(fā)人員在自己的應(yīng)用中構(gòu)建類似「AI 智能體(agent)」體驗的第一步。通俗點來說,「assistant」可以理解為一種為某個專門用途構(gòu)建的 AI,它有特定的指令,利用額外的知識,并能調(diào)用模型和工具來執(zhí)行任務(wù)。新的 Assistants API 提供了代碼解釋器(Code Interpreter)、檢索(Retrieval)以及函數(shù)調(diào)用(function calling)等新功能,可以處理大量以前你需要自己完成的繁重工作,使你能夠構(gòu)建高質(zhì)量的 AI 應(yīng)用。?
這個 API 設(shè)計靈活,用例包括基于自然語言的數(shù)據(jù)分析應(yīng)用、編碼助手、AI 驅(qū)動的度假計劃器、聲控 DJ、智能可視畫布等等。Assistants API 基于支持新 GPTs 產(chǎn)品的相同功能而構(gòu)建:自定義指令和工具,如代碼解釋器、檢索和函數(shù)調(diào)用。這個 API 引入的一個關(guān)鍵變化是持久和無限長的線程,它允許開發(fā)人員將線程狀態(tài)管理移交給 OpenAI,并繞過上下文窗口限制。使用 Assistants API,你只需將每條新消息添加到現(xiàn)有線程中即可。Assistants 還可根據(jù)需要調(diào)用新工具,包括
- 代碼解釋器(Code Interpreter):在沙盒執(zhí)行環(huán)境中編寫和運行 Python 代碼,并生成圖形和圖表,處理包含各種數(shù)據(jù)和格式的文件。它允許你的 assistants 反復(fù)運行代碼,以解決具有挑戰(zhàn)性的代碼和數(shù)學(xué)問題等。
- 檢索(Retrieval):利用模型之外的知識(如專有領(lǐng)域數(shù)據(jù)、產(chǎn)品信息或用戶提供的文檔)增強 assistants。這意味著,你不需要計算和存儲文檔的嵌入,也不需要實現(xiàn)分塊和搜索算法。Assistants API 會根據(jù) OpenAI 在 ChatGPT 中構(gòu)建知識檢索的經(jīng)驗,優(yōu)化要使用的檢索技術(shù)。
- 函數(shù)調(diào)用(Function calling):使助理能夠調(diào)用你定義的函數(shù),并將函數(shù)響應(yīng)納入其信息中。

OpenAI 的工作人員現(xiàn)場演示 Assistants API 的用法:它不僅能列出巴黎旅游建議,還能在地圖上將計劃中提到的地點按類別標記出來。
Assistants API 自動閱讀文檔、調(diào)用代碼解釋器來計算旅行開銷。OpenAI 表示,與平臺的其他部分一樣,傳給 OpenAI API 的數(shù)據(jù)和文件絕不會用于訓(xùn)練他們的模型,開發(fā)人員可以在他們認為合適的時候刪除數(shù)據(jù)。開發(fā)者可以前往 Assistants playground 試用 Assistants API 測試版,無需編寫任何代碼:https://platform.openai.com/playground?mode=assistant??
從今天起,所有開發(fā)者都可以使用 Assistants API 測試版。定價參見:https://openai.com/pricing?
其他更新Copyright ShieldOpenAI 表示,他們致力于通過系統(tǒng)中的內(nèi)置版權(quán)保護措施來保護客戶,所以推出了新的版權(quán)保障措施 ——Copyright Shield。如果你面臨有關(guān)版權(quán)侵權(quán)的法律索賠,他們將介入并保護客戶,并支付由此產(chǎn)生的費用。這適用于 ChatGPT 企業(yè)版和我們的開發(fā)者平臺的一般可用功能。Whisper v3 和 Consistency DecoderWhisper 是 OpenAI 開源的一款語音轉(zhuǎn)文本模型。在這次開發(fā)者大會上,Altman 官宣了新版本 Whisper large-v3,其特點是提高了各種語言的識別性能。他們還計劃在不久的將來在 API 中支持 Whisper v3。?此外,他們還在開源 Consistency Decoder,它是 Stable Diffusion VAE 解碼器的直接替代品。該解碼器可改進所有與 Stable Diffusion 1.0+ VAE 兼容的圖像,并在文本、人臉和直線方面有顯著改進。博客鏈接:https://openai.com/blog/new-models-and-developer-products-announced-at-devday