OpenAI工程師親自修訂:用ChatGPT實(shí)時語音API構(gòu)建應(yīng)用
關(guān)于有效使用Realtime API的一切。

原標(biāo)題:OpenAI工程師親自修訂:用ChatGPT實(shí)時語音API構(gòu)建應(yīng)用
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):20999字
OpenAI Realtime API詳解:構(gòu)建快速語音轉(zhuǎn)語音智能體驗(yàn)
本文總結(jié)了來自latent.space一篇關(guān)于使用OpenAI Realtime API構(gòu)建語音AI智能體的博客文章要點(diǎn),該文章由Daily.co工程師撰寫并經(jīng)OpenAI員工審核,詳細(xì)介紹了使用該API構(gòu)建Pipecat(一個實(shí)時API框架)的經(jīng)驗(yàn)教訓(xùn)。
1. 從Pipeline到端到端模型
文章首先回顧了早期使用GPT-4構(gòu)建語音模型的方法:將語音輸入轉(zhuǎn)換為文本提示,再由GPT-4處理,最后轉(zhuǎn)換為語音輸出。這種多模型pipeline方法存在延遲高、GPT-4可能偏離軌道等問題。隨著GPT-4的更新和實(shí)時API的發(fā)布,這些問題得到了顯著改善。
2. OpenAI Realtime API的優(yōu)勢
OpenAI Realtime API于2023年10月1日發(fā)布,它是一個低延遲、多模態(tài)API,利用GPT-4o的語音到語音功能,能夠管理對話狀態(tài)、實(shí)現(xiàn)短語端點(diǎn)檢測、提供雙向音頻流,并支持用戶中斷LLM輸出。其最簡單的處理pipeline為:[語音輸入] ? [GPT-4o] ? [語音輸出],顯著簡化了開發(fā)流程。
3. 架構(gòu)與機(jī)制
實(shí)時API通過WebSocket連接定義了一系列,包括9種客戶端和28種服務(wù)器。這種結(jié)構(gòu)使得Python中的最小命令行客戶端代碼量僅需75行左右。API支持未壓縮的16位、24kHz音頻和壓縮的G.711音頻,但建議使用未壓縮音頻以獲得更好的質(zhì)量。
4. 延遲與句尾檢測
文章強(qiáng)調(diào)了低延遲在對話式AI中的重要性,并介紹了OpenAI Realtime API在延遲方面的優(yōu)勢。同時,詳細(xì)解釋了句尾檢測(短語終點(diǎn)檢測)和打斷處理機(jī)制,以及如何配置VAD參數(shù)以優(yōu)化用戶體驗(yàn)。文章還提到了使用上下文感知短語端點(diǎn)和貪婪推理等技術(shù)來進(jìn)一步減少延遲。
5. 上下文管理
實(shí)時API自動管理對話上下文,簡化代碼并降低延遲。但需要注意最大上下文長度(128000 tokens)和最大對話時間(15分鐘)的限制。文章介紹了如何通過保存對話歷史記錄來實(shí)現(xiàn)持久對話,以及如何使用`對話.item.truncate`來確保上下文與用戶聽到的音頻范圍匹配。
6. 函數(shù)調(diào)用與成本
實(shí)時API中的函數(shù)調(diào)用運(yùn)行良好,但其格式與OpenAI HTTP API略有不同。文章提供了代碼示例,展示了如何處理函數(shù)調(diào)用。關(guān)于成本,文章指出其與會話長度相關(guān),但緩存的音頻tokens成本比非緩存的低80%。文章還提供了一個成本計(jì)算器表格,方便用戶估算成本。
7. WebSockets與WebRTC
實(shí)時API使用WebSockets進(jìn)行網(wǎng)絡(luò)傳輸,但對于對延遲要求嚴(yán)格的瀏覽器或原生移動應(yīng)用,建議使用WebRTC連接,以避免WebSockets的“首阻塞問題”和TCP重傳帶來的延遲。
8. 回聲消除與音頻處理
文章建議使用Chrome和Safari瀏覽器進(jìn)行開發(fā)和測試,因?yàn)樗鼈兊幕芈曄鸵纛l流管理功能更穩(wěn)定?;芈曄龖?yīng)在客戶端設(shè)備上完成,而其他類型的音頻處理可以在服務(wù)器端實(shí)現(xiàn)。
9. API設(shè)計(jì)與Pipecat框架
文章最后比較了OpenAI實(shí)時API和Pipecat框架的設(shè)計(jì)差異,并展示了如何在Pipecat中集成實(shí)時API,以及如何構(gòu)建更復(fù)雜的語音AI pipeline。
總而言之,這篇博客文章為開發(fā)者提供了使用OpenAI Realtime API構(gòu)建語音AI產(chǎn)品的全面指南,涵蓋了技術(shù)細(xì)節(jié)、最佳實(shí)踐和潛在挑戰(zhàn),對于想要構(gòu)建此類產(chǎn)品的開發(fā)者具有很高的參考價值。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號