聲網(wǎng)劉斌:“Her”真正落地實現(xiàn)離不開RTE能力的支撐|MEET 2025
多模態(tài)交互AI Agent應(yīng)用,離不開RTC能力的支持

原標題:聲網(wǎng)劉斌:“Her”真正落地實現(xiàn)離不開RTE能力的支撐|MEET 2025
文章來源:量子位
內(nèi)容字數(shù):5849字
聲網(wǎng):實時互動技術(shù)賦能AI Agent時代
本文總結(jié)了聲網(wǎng)首席運營官劉斌在MEET 2025智能未來大會上關(guān)于實時互動技術(shù)(RTE)如何賦能AI Agent的演講內(nèi)容。聲網(wǎng)作為全球最大的實時互動云服務(wù)商,其技術(shù)在AI Agent應(yīng)用的落地過程中扮演著至關(guān)重要的角色。
1. 聲網(wǎng)及其在實時互動領(lǐng)域的領(lǐng)先地位
聲網(wǎng)于2020年在納斯達克上市,致力于提供高質(zhì)量的實時互動云服務(wù)。其平臺月度音視頻使用時長達700億分鐘,占據(jù)全球市場領(lǐng)先地位,服務(wù)涵蓋泛娛樂、教育和物聯(lián)網(wǎng)等多個領(lǐng)域。聲網(wǎng)的兄弟公司Agora也是OpenAI Realtime API的合作伙伴,聲網(wǎng)自身也與MiniMax合作開發(fā)國內(nèi)首個Realtime API。
2. RTE在AI Agent應(yīng)用中的關(guān)鍵作用
劉斌指出,多模態(tài)AI Agent應(yīng)用的產(chǎn)品化落地,依賴于低延遲、端到端、全球任意地點、弱網(wǎng)環(huán)境以及各種終端下的穩(wěn)定可靠的RTE能力。 他強調(diào)了兩個關(guān)鍵因素:一是延遲,低于1.7秒的延遲才能保證自然流暢的交互體驗;二是打斷功能,實現(xiàn)主動交互是提升用戶體驗的關(guān)鍵。
3. 技術(shù)挑戰(zhàn)與聲網(wǎng)的解決方案
演講中提到,將大模型與實時互動結(jié)合并非易事,OpenAI Realtime API的推出也經(jīng)歷了漫長的過程。這需要解決諸多技術(shù)難題,例如:在各種網(wǎng)絡(luò)環(huán)境和終端設(shè)備上保證低延遲、高穩(wěn)定性的實時音視頻傳輸;處理各種環(huán)境噪聲和網(wǎng)絡(luò)干擾;以及優(yōu)化人機交互體驗,提升AI QoE(體驗質(zhì)量)。
聲網(wǎng)憑借其遍布全球的SD-RTN網(wǎng)絡(luò)、支持多種平臺和終端的SDK以及多年的技術(shù)積累,能夠有效應(yīng)對這些挑戰(zhàn)。其技術(shù)能夠在各種復(fù)雜的網(wǎng)絡(luò)環(huán)境下保證低延遲的實時互動,為AI Agent應(yīng)用提供堅實的基礎(chǔ)設(shè)施。
4. 聲網(wǎng)的未來發(fā)展方向
聲網(wǎng)正在持續(xù)優(yōu)化其產(chǎn)品體系,例如提升Linux SDK、AI VAD(語音活動檢測)能力以及AI Agent Service等,旨在成為生成式AI時代的AI基礎(chǔ)設(shè)施的關(guān)鍵組成部分。 他們致力于將人機交互體驗從目前的水平提升到一個新的高度,這不僅需要模型本身的改進,更需要完善的工程配套。
5. 結(jié)論
劉斌總結(jié)道,任何涉及大模型多模態(tài)實時交互的應(yīng)用,都離不開RTE技術(shù)的支持。聲網(wǎng)的技術(shù)實力和豐富的經(jīng)驗,使其能夠為AI Agent應(yīng)用的落地提供強有力的保障。 未來,聲網(wǎng)將繼續(xù)深耕RTE領(lǐng)域,為AI Agent應(yīng)用的蓬勃發(fā)展提供更優(yōu)質(zhì)的服務(wù)。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號