多模態交互AI Agent應用,離不開RTC能力的支持
原標題:聲網劉斌:“Her”真正落地實現離不開RTE能力的支撐|MEET 2025
文章來源:量子位
內容字數:5849字
聲網:實時互動技術賦能AI Agent時代
本文總結了聲網首席運營官劉斌在MEET 2025智能未來大會上關于實時互動技術(RTE)如何賦能AI Agent的演講內容。聲網作為全球最大的實時互動云服務商,其技術在AI Agent應用的落地過程中扮演著至關重要的角色。
1. 聲網及其在實時互動領域的領先地位
聲網于2020年在納斯達克上市,致力于提供高質量的實時互動云服務。其平臺月度音視頻使用時長達700億分鐘,占據全球市場領先地位,服務涵蓋泛娛樂、教育和物聯網等多個領域。聲網的兄弟公司Agora也是OpenAI Realtime API的合作伙伴,聲網自身也與MiniMax合作開發國內首個Realtime API。
2. RTE在AI Agent應用中的關鍵作用
劉斌指出,多模態AI Agent應用的產品化落地,依賴于低延遲、端到端、全球任意地點、弱網環境以及各種終端下的穩定可靠的RTE能力。 他強調了兩個關鍵因素:一是延遲,低于1.7秒的延遲才能保證自然流暢的交互體驗;二是打斷功能,實現主動交互是提升用戶體驗的關鍵。
3. 技術挑戰與聲網的解決方案
演講中提到,將大模型與實時互動結合并非易事,OpenAI Realtime API的推出也經歷了漫長的過程。這需要解決諸多技術難題,例如:在各種網絡環境和終端設備上保證低延遲、高穩定性的實時音視頻傳輸;處理各種環境噪聲和網絡干擾;以及優化人機交互體驗,提升AI QoE(體驗質量)。
聲網憑借其遍布全球的SD-RTN網絡、支持多種平臺和終端的SDK以及多年的技術積累,能夠有效應對這些挑戰。其技術能夠在各種復雜的網絡環境下保證低延遲的實時互動,為AI Agent應用提供堅實的基礎設施。
4. 聲網的未來發展方向
聲網正在持續優化其產品體系,例如提升Linux SDK、AI VAD(語音活動檢測)能力以及AI Agent Service等,旨在成為生成式AI時代的AI基礎設施的關鍵組成部分。 他們致力于將人機交互體驗從目前的水平提升到一個新的高度,這不僅需要模型本身的改進,更需要完善的工程配套。
5. 結論
劉斌總結道,任何涉及大模型多模態實時交互的應用,都離不開RTE技術的支持。聲網的技術實力和豐富的經驗,使其能夠為AI Agent應用的落地提供強有力的保障。 未來,聲網將繼續深耕RTE領域,為AI Agent應用的蓬勃發展提供更優質的服務。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破