<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        OpenAI工程師親自修訂:用ChatGPT實時語音API構建應用

        AIGC動態8個月前發布 機器之心
        222 0 0

        關于有效使用Realtime API的一切。

        OpenAI工程師親自修訂:用ChatGPT實時語音API構建應用

        原標題:OpenAI工程師親自修訂:用ChatGPT實時語音API構建應用
        文章來源:機器之心
        內容字數:20999字

        OpenAI Realtime API詳解:構建快速語音轉語音智能體驗

        本文總結了來自latent.space一篇關于使用OpenAI Realtime API構建語音AI智能體的博客文章要點,該文章由Daily.co工程師撰寫并經OpenAI員工審核,詳細介紹了使用該API構建Pipecat(一個實時API框架)的經驗教訓。

        1. 從Pipeline到端到端模型

        文章首先回顧了早期使用GPT-4構建語音模型的方法:將語音輸入轉換為文本提示,再由GPT-4處理,最后轉換為語音輸出。這種多模型pipeline方法存在延遲高、GPT-4可能偏離軌道等問題。隨著GPT-4的更新和實時API的發布,這些問題得到了顯著改善。

        2. OpenAI Realtime API的優勢

        OpenAI Realtime API于2023年10月1日發布,它是一個低延遲、多模態API,利用GPT-4o的語音到語音功能,能夠管理對話狀態、實現短語端點檢測、提供雙向音頻流,并支持用戶中斷LLM輸出。其最簡單的處理pipeline為:[語音輸入] ? [GPT-4o] ? [語音輸出],顯著簡化了開發流程。

        3. 架構與機制

        實時API通過WebSocket連接定義了一系列,包括9種客戶端和28種服務器。這種結構使得Python中的最小命令行客戶端代碼量僅需75行左右。API支持未壓縮的16位、24kHz音頻和壓縮的G.711音頻,但建議使用未壓縮音頻以獲得更好的質量。

        4. 延遲與句尾檢測

        文章強調了低延遲在對話式AI中的重要性,并介紹了OpenAI Realtime API在延遲方面的優勢。同時,詳細解釋了句尾檢測(短語終點檢測)和打斷處理機制,以及如何配置VAD參數以優化用戶體驗。文章還提到了使用上下文感知短語端點和貪婪推理等技術來進一步減少延遲。

        5. 上下文管理

        實時API自動管理對話上下文,簡化代碼并降低延遲。但需要注意最大上下文長度(128000 tokens)和最大對話時間(15分鐘)的限制。文章介紹了如何通過保存對話歷史記錄來實現持久對話,以及如何使用`對話.item.truncate`來確保上下文與用戶聽到的音頻范圍匹配。

        6. 函數調用與成本

        實時API中的函數調用運行良好,但其格式與OpenAI HTTP API略有不同。文章提供了代碼示例,展示了如何處理函數調用。關于成本,文章指出其與會話長度相關,但緩存的音頻tokens成本比非緩存的低80%。文章還提供了一個成本計算器表格,方便用戶估算成本。

        7. WebSockets與WebRTC

        實時API使用WebSockets進行網絡傳輸,但對于對延遲要求嚴格的瀏覽器或原生移動應用,建議使用WebRTC連接,以避免WebSockets的“首阻塞問題”和TCP重傳帶來的延遲。

        8. 回聲消除與音頻處理

        文章建議使用Chrome和Safari瀏覽器進行開發和測試,因為它們的回聲消除和音頻流管理功能更穩定。回聲消除應在客戶端設備上完成,而其他類型的音頻處理可以在服務器端實現。

        9. API設計與Pipecat框架

        文章最后比較了OpenAI實時API和Pipecat框架的設計差異,并展示了如何在Pipecat中集成實時API,以及如何構建更復雜的語音AI pipeline。

        總而言之,這篇博客文章為開發者提供了使用OpenAI Realtime API構建語音AI產品的全面指南,涵蓋了技術細節、最佳實踐和潛在挑戰,對于想要構建此類產品的開發者具有很高的參考價值。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产在线a不卡免费视频| 亚洲福利一区二区三区| 黄网站在线播放视频免费观看| 99re6热视频精品免费观看| 亚洲精品成人无限看| 大地资源在线资源免费观看| 亚洲色精品aⅴ一区区三区| 国产免费久久精品99久久| 国产精品亚洲一区二区三区在线| 国产无遮挡裸体免费视频在线观看 | 99久久免费精品高清特色大片| 亚洲成AV人片在| 在线观看的免费网站无遮挡| 亚洲精品成人久久| 99久热只有精品视频免费看 | 久久精品亚洲一区二区| 24小时日本电影免费看| 亚洲综合一区二区国产精品| 福利免费观看午夜体检区| 亚洲AV无码专区亚洲AV桃| 亚洲日韩在线观看免费视频| a国产成人免费视频| 亚洲欧洲日本天天堂在线观看| 丁香花在线观看免费观看| 天天综合亚洲色在线精品| 亚洲乳大丰满中文字幕| 91精品国产免费| 久久亚洲精品无码av| 精品久久久久久亚洲| 国产v精品成人免费视频400条| 亚洲精品无码专区| 亚洲中文字幕无码永久在线| 国产a视频精品免费观看| 国产亚洲精品第一综合| 久久久久亚洲精品成人网小说| 一二三四在线播放免费观看中文版视频 | 亚洲精品视频在线免费| 菠萝菠萝蜜在线免费视频| 亚洲欧洲日韩不卡| 免费看国产曰批40分钟| 99久久99久久精品免费观看|