GPT-4o 最關(guān)鍵功能本周上線,語音交互的時代終于要來了
AIGC動態(tài)歡迎閱讀
原標(biāo)題:GPT-4o 最關(guān)鍵功能本周上線,語音交互的時代終于要來了
關(guān)鍵字:公司,模型,語音,領(lǐng)域,場景
文章來源:Founder Park
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
Voice Agent 是與人類進行對話溝通的 AI,是下一代人機交互界面。和文本相比,聲音交互的優(yōu)勢主要體現(xiàn)在:
? 語音交互以其與人類自然溝通方式的高度一致性,提供了一種更為直觀和低能耗的交互體驗,而打字文本交互的使用門檻更高;
? 語音交互非常適合于簡短、即時的信息交流;
? Text copilot 往往需要人機協(xié)作,最后一公里由人類完成,voice agent 一旦落地將徹底替代人類,完成交流任務(wù)。
以上差異使 voice agent 能產(chǎn)生不同于其他模態(tài)的價值,所以我們選擇 voice agent 作為市場進行研究。
GPT-4o 是第一個實現(xiàn)端到端 voice-in, voice-out 的大模型,低延遲、高智能使下一代交互成為可能。傳統(tǒng)語音中 ASR + NLP(即使被替換為 LLM)+ TTS 的延遲是用戶難以接受的,且很難沿著 scaling law 產(chǎn)生足夠智能的對話體驗。GPT-4o 的出現(xiàn)讓新的交互形態(tài)成為可能,帶來了更多應(yīng)用場景的想象。
本篇研究中,我們根據(jù)不同場景對于實時性、準(zhǔn)確性、創(chuàng)造性的不同要求搭建了分析 voice agent 能力稟賦框架,
原文鏈接:GPT-4o 最關(guān)鍵功能本周上線,語音交互的時代終于要來了
聯(lián)系作者
文章來源:Founder Park
作者微信:
作者簡介: