<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        WebRTC創建者加入了OpenAI,他如何思考語音AI的未來?

        AIGC動態5個月前發布 Founder Park
        630 0 0

        WebRTC 的早期創建者之一,Fixie.ai 聯合創始人兼 CTO Justin Uberti 近日宣布加入 OpenAI,領導實時 AI (Real-Time AI)項目的開發。Uberti 在 2011 年于 Google 參與創建并領導了 WebRTC 項目,并推動其成為 W3C 和 IETF 標準。從最早參與 AOL Instant Messenger(AIM)開始,他見證了人與人之間溝通方式從文字到音視頻的演變。現在,他正在積極推動人與 AI 的交互從文本框走向更自然的語音對話。2023 年完成種子輪融資,Fixie.ai 初期專注于 AI Agent 搭建平臺,后來轉向 Uberti 更為擅長的實時 AI 領域,先后推出了虛擬角色語音對話網站 AI.TOWN、大模型速度評測平臺 thefastest.ai,以及最近發布的開源語音模型 Ultravox(編者注:我們剛翻譯了 Ultravox 提出的「人類級別語音 AI 路線圖」)。11 月 26 日 Uberti 宣布離開 Fixie.ai,加入 OpenAI。我們找到了他今年 6 月以 Fixie.ai 聯創身份參與播客 AI Inside 的節目,摘錄了部分精彩對話,希望能幫助大家理解 Justin Uberti 對語音 AI 未來的思考。核心觀點語音交互是 AI 的未來:「我們正處于 AI 能夠理解和運用語音,并最終可能結合視覺進行多模態交互的時代。」我們正回歸對話式社會:「印刷術出現之前,社會是對話式的,后來被文本主導……我們正回歸對話式社會。」AI 在對話中不易出錯:「大型語言模型擅長對話,對話也具有自我修復特性。」語音 AI 提供了一個「不被批判」的環境:「練習口語的人可以在一個沒有評判的環境中與 AI 角色交談,甚至可以請角色指出錯誤。」聲音克隆技術的倫理至關重要:「語音提供商正努力防止克隆聲音用于欺詐的情況,例如對語音加水印,征得同意,甚至要求用戶錄制視頻并出示身份證明。」AI 的「幻覺」可以是積極的:「在虛構的 AI 角色場景中,『幻覺』反而是好事,因為它可以補充角色個性。」低延遲是流暢語音交互的關鍵:「低延遲不僅僅是為了讓對話更流暢,它實際上會影響對話的語義理解。」語氣詞對自然對話至關重要:「像『嗯』、『呃』這樣的語氣詞實際上是對話流程中的一部分,用來控制話語權的……這些特征最終會成為語音 AI 的一部分。」端到端模型直接處理語音,所以更自然:「我們終將找到將人類對話的細微特征映射到 AI 交互中的方法。」語音交互的未來:對話 Justin UbertiThe Future of Voice Interaction(with Justin Uberti)主播:Jason Howell、Jeff Jarvis嘉賓:Justin Uberti注:為便于閱讀,本文內容已作精簡,并非完整對話。你可以訪問原文收聽完整版播客。01從文本消息到語音 AI 交互Jason Howell: Justin,歡迎!我從你在 Google 時期就關注你的工作,你領導了 WebRTC、Hangouts Video、Duo 和 Stadia 等項目,之后加入 Clubhouse,現在是 Fixie.ai 聯合創始人兼 CTO。你豐富的 AI 經驗是如何引領你創建 Fixie 和 AI Town 的?Justin Uberti: 我一直對語音/視頻對話和純文本對話的差異很感興趣。我早期參與了 AOL Instant Messenger,它能即時發送消息,這在當時很神奇。后來我們添加了音視頻功能,因為它們承載的信息更豐富。現在,Instagram 和 TikTok 等應用都以視頻為中心,因為它更具吸引力。Clubhouse 也證明了語音的魅力,它能傳達文本無法表達的情感。我認為與 AI 的交互也應如此。ChatGPT 很強大,但它像個新型命令行工具——輸入文本,輸出文本,很多人不知如何有效使用它。Jason Howell: 的確如此。我剛接觸 AI 時,雖然知道它潛力巨大,但不知從何入手,直到我自己用它解決實際問題。Justin Uberti:與電腦對話對很多人仍是挑戰。處理重要事情時,人們更傾向于面對面或通過語音/視頻溝通。疫情期間,Google Meet 等工具的普及也印證了這一點。我們也應期待 AI 以更自然的方式與我們互動。語音是人類與生俱來的能力,它比文字更豐富。我們正處于 AI 能夠理解和運用語音,并最終可能結合視覺進行多模態交互的時代。在 Fixie,我們正構建工具,讓 AI 更自然地使用語音交互。AI Town 就是這樣一個平臺,你可以在那里通過語音與 AI 交流。02與 AI 對話:「我們正回歸對話式社會」Jason Howell: 關于語音 AI,我想到的是視頻會議,你在 Hangouts Video 和 Duo 經驗豐富。現在應用中的 AI 就像視頻會議中加入了智能體。隨著語音 AI 越來越像人類,它能解析對話并成為助手,AI 語音成為我們在線對話一部分指日可待。或許這已發生,只是我未注意到。Justin Uberti:的確如此。語音部分的發展可能比助手部分更快。我們希望助手能代表我們行動,但目前的 AI 缺乏內部審查機制,難以判斷正確行動。我們不放心讓 AI 代表我們做不可逆轉的事,例如發郵件或安排日程。但 AI 在對話中不易出錯。大型語言模型擅長對話,對話也具有自我修復特性。Jeff Jarvis: 我寫過一本書 The Gutenberg Parenthesis,探討印刷和文本的時代。在此之前,社會是對話式的,后來被文本主導。我認為我們正回歸對話式社會。廣播出現時,報紙堅稱耳朵不是學習的好方法,必須通過眼睛。你認為人們是否需要重新學習對話?Justin Uberti:人們知道如何與親友交談。與電腦交談可能需要適應,但不難。有人曾說人們不想與電腦交談,我說你每天都在和電腦交談數小時, 他說是用手指。我說,想象一下,另一端是 AI。幾年后,你會以同樣方式看待與 AI 的對話,就像 Zoom 通話一樣。語音比文字傳遞的信息更多。Jeff Jarvis: GPT-4o 和 Scarlett Johansson 后(編者注:OpenAI 的 GPT-4o 語音助手因使用與電影 Her 演員 Scarlett Johansson 聲音相似的合成語音引發爭議),關于擬人化,讓人們相信他們在與人類交談是你的目標嗎?你想創建什么樣的倫理框架?Justin Uberti: 我們認為這波浪潮即將到來,但正確的實驗方式是在低風險環境中進行,主要用于閑聊和娛樂,就像我們在 AI Town 所做的。我們創建了一個環境,你可以在那里與不同的 AI 角色交談,它們有自己的生活,會發布社交媒體帖子,你可以給他們發短信,也可以語音通話。Jeff Jarvis: 你是這個領域的先驅,有機會定義這項技術的正確和錯誤使用方式。你認為這項技術的壞處是什么?Justin Uberti: 一些明顯的壞處包括克隆聲音用于欺詐。業內領先的語音提供商正努力防止這種情況,例如對語音加水印,征得同意,甚至要求用戶錄制視頻并出示身份證明。另一個挑戰是,我們曾經相信出版的文本是真實的,但現在不是了。生成式 AI 也讓我們無法相信照片一定是真實的。語音也面臨同樣的問題。Jeff Jarvis: 印刷術剛出現時,人們也不信任它,因為它缺乏來源。后來我們建立了機構來驗證真實性。我認為這里的機會是,你的 AI 來自哪里?你的聲音來自哪里?它的來源、知識、行為以及是誰把它帶給你的?這些都是重要的人類問題,也是機遇。03人類為何與虛擬角色對話?以及「幻覺」的妙用Jason Howell: 你提到了 AI Town,它就像與虛擬或真實角色進行語音對話,你也可以通過文字與他們交流。它是一個低風險的體驗環境。你在用戶與網站上的角色互動時,看到了哪些讓你感到驚訝的事情?Justin Uberti: 我們最初創建了 HiSanta.ai,讓人們與圣誕老人和精靈語音互動。我們本以為這只是一個測試,但需求遠超預期。我們意識到,人們很喜歡與虛構角色,特別是那些耳熟能詳的角色交談。圣誕老人就是一個非常受歡迎的例子。我們還創造了一個「壞圣誕老人」,他也很受歡迎。我們希望人們能與 AI 角色進行有趣對話,并發現人們真正感興趣的話題。事實證明,虛構角色是樂趣和有趣對話的豐富來源。Jeff Jarvis: 創建一個虛構角色需要做些什么?你需要多深入的描述?Justin Uberti:我們有一個優化過的流程,你甚至可以通過語音完成。系統會問你幾個問題,幫助你構建角色的背景故事。大型語言模型非常擅長角色扮演。你告訴它你的身份、興趣等等,它就會順著你的描述進行下去。我們通常認為大型語言模型的「幻覺」不好,但在這種虛構的 AI 角色場景中,「幻覺」反而是好事,因為它可以補充角色個性。Jason Howell: 你提到了「幻覺」,我認為它是否負面取決于具體情況。如果追求事實,那么「幻覺」不好。但如果追求創造力,「幻覺」則可能很棒。Jeff Jarvis: 《衛報》最近刊登了一篇文章,認為 AI 可以治愈人類的孤獨感。你的目標有這么高尚嗎?或者只是為了娛樂?Justin Uberti: 這是一個相當崇高的目標。我們發現 AI Town 的一個用例是幫助英語作為第二語言的人練習口語。他們可以在一個沒有評判的環境中與 AI 角色交談,甚至可以請角色指出錯誤。Jason Howell: 這很有意義。因為你不必擔心被評判,你知道你交談的對象是 AI。Justin Uberti: 不被評判很重要。我認為這可以幫助人們建立自信。04低延遲和語氣詞的作用Jason Howell: 在語音到語音模型的開發過程中,你們遇到了哪些當時沒有預料到的挑戰?Justin Uberti: 挑戰有很多。人耳對聲音非常敏感,很容易分辨出聲音的自然度。AI 的響應速度至關重要。在 Duo、Google Meet 等產品中,我們的延遲標準是 250 毫秒。WebRTC 協議本身的設計就考慮到了低延遲的需求。人類對話的節奏非常快。如果延遲過高,就會出現一方打斷另一方,或者出現長時間的停頓,這會影響對話的流暢性。超過 600 毫秒的延遲,聽起來就會像是故意停頓的。所以,低延遲不僅僅是為了讓對話更流暢,它實際上會影響對話的語義理解。我們使用的 WebRTC 技術專注于低延遲,而且我認為整個 AI 生態系統都需要做出一些調整,來適應低延遲的語音交互。Jeff Jarvis: 你們一定對人類對話的本質做了很多研究吧。有什么有趣的發現可以分享嗎?Justin Uberti: 像「嗯」、「呃」這樣的語氣詞,通常被認為是不規范的、應該避免的。但實際上,它們是對話流程中的一部分,用來控制話語權的。Jason Howell: 這很有意思。我做播客的時候經常用 AI 生成文字稿,「嗯」、「呃」這些語氣詞在文字稿和實際聽到的效果完全不同。聽的時候,它們可以連接上下文,讓對話更流暢。但在文字里,它們會顯得說話的人表達不清。Jeff Jarvis: 我記得我第一次接受媒體采訪的時候,制作人告訴我他們會對我的話進行大量的剪輯。他特意告訴我這一點,是因為他知道我會經常在一個句子中間重新開始,而他們會把這些重新開始的部分剪掉。他們還做過一期節目,把所有人的「嗯」和「呃」都去掉了,這樣顯得嘉賓更聰明。這就引出一個新聞倫理的問題:你是應該展現一個人的真實狀態,還是出于某種「禮貌」,在文字稿里去掉這些語氣詞?我們如何通過一個人的說話方式來判斷他的智力水平,這真是一個耐人尋味的問題。Justin Uberti: 即興講話的時候,很難組織出非常嚴謹的段落。你在開口之前,并不會完全想好要說什么。你在報紙上看到的引語,通常都經過了潤色,去掉了所有的錯誤和語氣詞。現在,對視頻或音頻內容進行同樣的處理,也會產生類似的效果。但我認為,這樣做會扭曲說話者的真實形象。05「我們正處于第二代語音 AI 發展的時代」Jeff Jarvis: 你們會為 AI 添加這些人類語氣詞嗎?比如英國人常用的 「sort of」,美國人常用的 「like」 或 「you know」?你們會在 AI 的輸出中加入這些嗎?Justin Uberti: 這可以看作是語音技術從第一代到第二代的演進。OpenAI 的 GPT-4o 語音模式可以被視為第二代。第一代是語音轉文本,然后通過 LLM 處理,最后再文本轉語音。在這個過程中,沒有語氣詞,因為大型語言模型沒有接受過這方面的訓練。第二代模型則直接處理語音輸入和輸出,沒有中間的文本轉換步驟。在這種模式下,訓練數據中包含了語氣詞等對話特征。這些特征最終會成為語音 AI 的一部分,因為要真正參與對話,就需要能夠使用這些語氣詞。雖然 AI 不需要像人類一樣停頓思考,但在某些情況下,例如檢索信息時,AI 的響應速度可能會變慢。這時,使用語氣詞可以讓對話更自然流暢,避免尷尬的停頓。Jason Howell: 不過,我也能預見到很多人會因此批評 AI,認為它沒必要使用語氣詞。我們人類需要,但 AI 不需要。但我認為,如果我們能克服這種觀念,或許可以讓對話感覺更自然。Justin Uberti: 我們正處于第二代語音 AI 發展的時代,我認為我們終將找到將人類對話的細微特征映射到 AI 交互中的方法。這將會非常有趣。在不久的將來,你可能閉上眼睛,都無法分辨是在與人還是與 AI 交談。我認為這將極大地促進像 ChatGPT 這樣的技術的發展,并吸引更廣泛的用戶,因為你只需要與它交談即可,非常便捷。Jason Howell: 除了 AI Town,Fixie 目前還有哪些其他項目?Justin Uberti: 我們最近開源了一個名為 Ultravox.ai 的語音 AI 模型,這是一個非常令人興奮的項目。它基于 Meta 的 Llama 3,并進行了多模態擴展,能夠理解語音并進行多模態交互,可以應用于像 AI Town 這樣的場景,實現更快速、更自然的語音交互體驗。我們希望通過開源這個模型,推動語音 AI 技術的快速發展,讓更多人受益。此外,我們還創建了 thefastest.ai 排行榜,用于跟蹤哪些大規模語言模型的速度最快,以便在低延遲的語音交互場景中使用。我們非常關注速度,因為低延遲是實現流暢自然語音交互的關鍵。Jason Howell: 真是非常精彩的工作!Justin,感謝你今天與我們分享這些寶貴的見解。原文:https://aiinside.show/episode/the-future-of-voice-interaction-with-justin-uberti編譯:傅豐元社區技術顧問:付則宇


        更多閱讀來自開發者的AI編程上手實戰:如何用AI 提高編碼效率?哪款工具最好用?150億美元估值、從20日活到2億月活,Discord做對了什么?拿下諾貝爾獎、Anthropic創始人最看好的領域,AI for Science行業萬字解析做出最好大模型的 CEO,不認為 Scaling Law 撞墻了轉載原創文章請添信:founderparker

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 95老司机免费福利| 亚洲色偷偷综合亚洲AV伊人蜜桃| 亚洲av无码有乱码在线观看| 性xxxxx免费视频播放| 亚洲欧洲久久精品| 120秒男女动态视频免费| 亚洲日韩区在线电影| 久草免费福利视频| 亚洲爆乳无码一区二区三区| 中文字幕免费播放| 亚洲成AV人在线观看天堂无码| 成年女人A毛片免费视频| 亚洲一区精彩视频| 亚洲乱码一区二区三区在线观看| 亚洲成aⅴ人片在线影院八| 日本亚洲高清乱码中文在线观看| 国产精品成人无码免费| 日韩大片免费观看视频播放| 国产亚洲精品无码拍拍拍色欲| av成人免费电影| 亚洲第一中文字幕| 动漫黄网站免费永久在线观看 | free哆拍拍免费永久视频| 亚洲色欲一区二区三区在线观看| 久久国产免费一区二区三区| 亚洲国产成人资源在线软件| 热久久精品免费视频| jizz免费观看视频| 亚洲精品一卡2卡3卡三卡四卡| 无码一区二区三区AV免费| 边摸边吃奶边做爽免费视频网站| 亚洲综合无码AV一区二区| 8x网站免费入口在线观看| 亚洲成av人片在线天堂无| 久久亚洲AV永久无码精品| 91av视频免费在线观看| 国产天堂亚洲精品| 亚洲邪恶天堂影院在线观看| 成人免费视频88| 中文字幕不卡免费高清视频| 亚洲成在人线电影天堂色|