国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

<strike id="o8a8y"></strike>

<center id="o8a8y"></center>

WebRTC創(chuàng)建者加入了OpenAI，他如何思考語音AI的未來？

AIGC動態(tài)11個月前發(fā)布 Founder Park

630 0 0

WebRTC 的早期創(chuàng)建者之一，F(xiàn)ixie.ai 聯(lián)合創(chuàng)始人兼 CTO Justin Uberti 近日宣布加入 OpenAI，領(lǐng)導實時 AI （Real-Time AI）項目的開發(fā)。Uberti 在 2011 年于 Google 參與創(chuàng)建并領(lǐng)導了 WebRTC 項目，并推動其成為 W3C 和 IETF 標準。從最早參與 AOL Instant Messenger（AIM）開始，他見證了人與人之間溝通方式從文字到音視頻的演變。現(xiàn)在，他正在積極推動人與 AI 的交互從文本框走向更自然的語音對話。2023 年完成種子輪融資，F(xiàn)ixie.ai 初期專注于 AI Agent 搭建平臺，后來轉(zhuǎn)向 Uberti 更為擅長的實時 AI 領(lǐng)域，先后推出了虛擬角色語音對話網(wǎng)站 AI.TOWN、大模型速度評測平臺 thefastest.ai，以及最近發(fā)布的開源語音模型 Ultravox（編者注：我們剛翻譯了 Ultravox 提出的「人類級別語音 AI 路線圖」）。11 月 26 日 Uberti 宣布離開 Fixie.ai，加入 OpenAI。我們找到了他今年 6 月以 Fixie.ai 聯(lián)創(chuàng)身份參與播客 AI Inside 的節(jié)目，摘錄了部分精彩對話，希望能幫助大家理解 Justin Uberti 對語音 AI 未來的思考。核心觀點語音交互是 AI 的未來：「我們正處于 AI 能夠理解和運用語音，并最終可能結(jié)合視覺進行多模態(tài)交互的時代?！刮覀冋貧w對話式社會：「印刷術(shù)出現(xiàn)之前，社會是對話式的，后來被文本主導……我們正回歸對話式社會?！笰I 在對話中不易出錯：「大型語言模型擅長對話，對話也具有自我修復特性?！拐Z音 AI 提供了一個「不被批判」的環(huán)境：「練習口語的人可以在一個沒有評判的環(huán)境中與 AI 角色交談，甚至可以請角色指出錯誤?！孤曇艨寺〖夹g(shù)的倫理至關(guān)重要：「語音提供商正努力防止克隆聲音用于欺詐的情況，例如對語音加水印，征得同意，甚至要求用戶錄制視頻并出示身份證明?！笰I 的「幻覺」可以是積極的：「在虛構(gòu)的 AI 角色場景中，『幻覺』反而是好事，因為它可以補充角色個性?！沟脱舆t是流暢語音交互的關(guān)鍵：「低延遲不僅僅是為了讓對話更流暢，它實際上會影響對話的語義理解?！拐Z氣詞對自然對話至關(guān)重要：「像『嗯』、『呃』這樣的語氣詞實際上是對話流程中的一部分，用來控制話語權(quán)的……這些特征最終會成為語音 AI 的一部分?！苟说蕉四Ｐ椭苯犹幚碚Z音，所以更自然：「我們終將找到將人類對話的細微特征映射到 AI 交互中的方法?！拐Z音交互的未來：對話 Justin UbertiThe Future of Voice Interaction(with Justin Uberti)主播：Jason Howell、Jeff Jarvis嘉賓：Justin Uberti注：為便于閱讀，本文內(nèi)容已作精簡，并非完整對話。你可以訪問原文收聽完整版播客。01從文本消息到語音 AI 交互Jason Howell: Justin，歡迎！我從你在 Google 時期就關(guān)注你的工作，你領(lǐng)導了 WebRTC、Hangouts Video、Duo 和 Stadia 等項目，之后加入 Clubhouse，現(xiàn)在是 Fixie.ai 聯(lián)合創(chuàng)始人兼 CTO。你豐富的 AI 經(jīng)驗是如何引領(lǐng)你創(chuàng)建 Fixie 和 AI Town 的？Justin Uberti: 我一直對語音/視頻對話和純文本對話的差異很感興趣。我早期參與了 AOL Instant Messenger，它能即時發(fā)送消息，這在當時很神奇。后來我們添加了音視頻功能，因為它們承載的信息更豐富?，F(xiàn)在，Instagram 和 TikTok 等應用都以視頻為中心，因為它更具吸引力。Clubhouse 也證明了語音的魅力，它能傳達文本無法表達的情感。我認為與 AI 的交互也應如此。ChatGPT 很強大，但它像個新型命令行工具——輸入文本，輸出文本，很多人不知如何有效使用它。Jason Howell: 的確如此。我剛接觸 AI 時，雖然知道它潛力巨大，但不知從何入手，直到我自己用它解決實際問題。Justin Uberti:與電腦對話對很多人仍是挑戰(zhàn)。處理重要事情時，人們更傾向于面對面或通過語音/視頻溝通。疫情期間，Google Meet 等工具的普及也印證了這一點。我們也應期待 AI 以更自然的方式與我們互動。語音是人類與生俱來的能力，它比文字更豐富。我們正處于 AI 能夠理解和運用語音，并最終可能結(jié)合視覺進行多模態(tài)交互的時代。在 Fixie，我們正構(gòu)建工具，讓 AI 更自然地使用語音交互。AI Town 就是這樣一個平臺，你可以在那里通過語音與 AI 交流。02與 AI 對話：「我們正回歸對話式社會」Jason Howell: 關(guān)于語音 AI，我想到的是視頻會議，你在 Hangouts Video 和 Duo 經(jīng)驗豐富?，F(xiàn)在應用中的 AI 就像視頻會議中加入了智能體。隨著語音 AI 越來越像人類，它能解析對話并成為助手，AI 語音成為我們在線對話一部分指日可待?；蛟S這已發(fā)生，只是我未注意到。Justin Uberti:的確如此。語音部分的發(fā)展可能比助手部分更快。我們希望助手能代表我們行動，但目前的 AI 缺乏內(nèi)部審查機制，難以判斷正確行動。我們不放心讓 AI 代表我們做不可逆轉(zhuǎn)的事，例如發(fā)郵件或安排日程。但 AI 在對話中不易出錯。大型語言模型擅長對話，對話也具有自我修復特性。Jeff Jarvis: 我寫過一本書 The Gutenberg Parenthesis，探討印刷和文本的時代。在此之前，社會是對話式的，后來被文本主導。我認為我們正回歸對話式社會。廣播出現(xiàn)時，報紙堅稱耳朵不是學習的好方法，必須通過眼睛。你認為人們是否需要重新學習對話？Justin Uberti:人們知道如何與親友交談。與電腦交談可能需要適應，但不難。有人曾說人們不想與電腦交談，我說你每天都在和電腦交談數(shù)小時，他說是用手指。我說，想象一下，另一端是 AI。幾年后，你會以同樣方式看待與 AI 的對話，就像 Zoom 通話一樣。語音比文字傳遞的信息更多。Jeff Jarvis: GPT-4o 和 Scarlett Johansson 后（編者注：OpenAI 的 GPT-4o 語音助手因使用與電影 Her 演員 Scarlett Johansson 聲音相似的合成語音引發(fā)爭議），關(guān)于擬人化，讓人們相信他們在與人類交談是你的目標嗎？你想創(chuàng)建什么樣的倫理框架？Justin Uberti: 我們認為這波浪潮即將到來，但正確的實驗方式是在低風險環(huán)境中進行，主要用于閑聊和娛樂，就像我們在 AI Town 所做的。我們創(chuàng)建了一個環(huán)境，你可以在那里與不同的 AI 角色交談，它們有自己的生活，會發(fā)布社交媒體帖子，你可以給他們發(fā)短信，也可以語音通話。Jeff Jarvis: 你是這個領(lǐng)域的先驅(qū)，有機會定義這項技術(shù)的正確和錯誤使用方式。你認為這項技術(shù)的壞處是什么？Justin Uberti: 一些明顯的壞處包括克隆聲音用于欺詐。業(yè)內(nèi)領(lǐng)先的語音提供商正努力防止這種情況，例如對語音加水印，征得同意，甚至要求用戶錄制視頻并出示身份證明。另一個挑戰(zhàn)是，我們曾經(jīng)相信出版的文本是真實的，但現(xiàn)在不是了。生成式 AI 也讓我們無法相信照片一定是真實的。語音也面臨同樣的問題。Jeff Jarvis: 印刷術(shù)剛出現(xiàn)時，人們也不信任它，因為它缺乏來源。后來我們建立了機構(gòu)來驗證真實性。我認為這里的機會是，你的 AI 來自哪里？你的聲音來自哪里？它的來源、知識、行為以及是誰把它帶給你的？這些都是重要的人類問題，也是機遇。03人類為何與虛擬角色對話？以及「幻覺」的妙用Jason Howell: 你提到了 AI Town，它就像與虛擬或真實角色進行語音對話，你也可以通過文字與他們交流。它是一個低風險的體驗環(huán)境。你在用戶與網(wǎng)站上的角色互動時，看到了哪些讓你感到驚訝的事情？Justin Uberti: 我們最初創(chuàng)建了 HiSanta.ai，讓人們與圣誕老人和精靈語音互動。我們本以為這只是一個測試，但需求遠超預期。我們意識到，人們很喜歡與虛構(gòu)角色，特別是那些耳熟能詳?shù)慕巧徽劇ＪフQ老人就是一個非常受歡迎的例子。我們還創(chuàng)造了一個「壞圣誕老人」，他也很受歡迎。我們希望人們能與 AI 角色進行有趣對話，并發(fā)現(xiàn)人們真正感興趣的話題。事實證明，虛構(gòu)角色是樂趣和有趣對話的豐富來源。Jeff Jarvis: 創(chuàng)建一個虛構(gòu)角色需要做些什么？你需要多深入的描述？Justin Uberti:我們有一個優(yōu)化過的流程，你甚至可以通過語音完成。系統(tǒng)會問你幾個問題，幫助你構(gòu)建角色的背景故事。大型語言模型非常擅長角色扮演。你告訴它你的身份、興趣等等，它就會順著你的描述進行下去。我們通常認為大型語言模型的「幻覺」不好，但在這種虛構(gòu)的 AI 角色場景中，「幻覺」反而是好事，因為它可以補充角色個性。Jason Howell: 你提到了「幻覺」，我認為它是否負面取決于具體情況。如果追求事實，那么「幻覺」不好。但如果追求創(chuàng)造力，「幻覺」則可能很棒。Jeff Jarvis: 《衛(wèi)報》最近刊登了一篇文章，認為 AI 可以治愈人類的孤獨感。你的目標有這么高尚嗎？或者只是為了娛樂？Justin Uberti: 這是一個相當崇高的目標。我們發(fā)現(xiàn) AI Town 的一個用例是幫助英語作為第二語言的人練習口語。他們可以在一個沒有評判的環(huán)境中與 AI 角色交談，甚至可以請角色指出錯誤。Jason Howell: 這很有意義。因為你不必擔心被評判，你知道你交談的對象是 AI。Justin Uberti: 不被評判很重要。我認為這可以幫助人們建立自信。04低延遲和語氣詞的作用Jason Howell: 在語音到語音模型的開發(fā)過程中，你們遇到了哪些當時沒有預料到的挑戰(zhàn)？Justin Uberti: 挑戰(zhàn)有很多。人耳對聲音非常敏感，很容易分辨出聲音的自然度。AI 的響應速度至關(guān)重要。在 Duo、Google Meet 等產(chǎn)品中，我們的延遲標準是 250 毫秒。WebRTC 協(xié)議本身的設(shè)計就考慮到了低延遲的需求。人類對話的節(jié)奏非常快。如果延遲過高，就會出現(xiàn)一方打斷另一方，或者出現(xiàn)長時間的停頓，這會影響對話的流暢性。超過 600 毫秒的延遲，聽起來就會像是故意停頓的。所以，低延遲不僅僅是為了讓對話更流暢，它實際上會影響對話的語義理解。我們使用的 WebRTC 技術(shù)專注于低延遲，而且我認為整個 AI 生態(tài)系統(tǒng)都需要做出一些調(diào)整，來適應低延遲的語音交互。Jeff Jarvis: 你們一定對人類對話的本質(zhì)做了很多研究吧。有什么有趣的發(fā)現(xiàn)可以分享嗎？Justin Uberti: 像「嗯」、「呃」這樣的語氣詞，通常被認為是不規(guī)范的、應該避免的。但實際上，它們是對話流程中的一部分，用來控制話語權(quán)的。Jason Howell: 這很有意思。我做播客的時候經(jīng)常用 AI 生成文字稿，「嗯」、「呃」這些語氣詞在文字稿和實際聽到的效果完全不同。聽的時候，它們可以連接上下文，讓對話更流暢。但在文字里，它們會顯得說話的人表達不清。Jeff Jarvis: 我記得我第一次接受媒體采訪的時候，制作人告訴我他們會對我的話進行大量的剪輯。他特意告訴我這一點，是因為他知道我會經(jīng)常在一個句子中間重新開始，而他們會把這些重新開始的部分剪掉。他們還做過一期節(jié)目，把所有人的「嗯」和「呃」都去掉了，這樣顯得嘉賓更聰明。這就引出一個新聞倫理的問題：你是應該展現(xiàn)一個人的真實狀態(tài)，還是出于某種「禮貌」，在文字稿里去掉這些語氣詞？我們?nèi)绾瓮ㄟ^一個人的說話方式來判斷他的智力水平，這真是一個耐人尋味的問題。Justin Uberti: 即興講話的時候，很難組織出非常嚴謹?shù)亩温?。你在開口之前，并不會完全想好要說什么。你在報紙上看到的引語，通常都經(jīng)過了潤色，去掉了所有的錯誤和語氣詞?，F(xiàn)在，對視頻或音頻內(nèi)容進行同樣的處理，也會產(chǎn)生類似的效果。但我認為，這樣做會扭曲說話者的真實形象。05「我們正處于第二代語音 AI 發(fā)展的時代」Jeff Jarvis: 你們會為 AI 添加這些人類語氣詞嗎？比如英國人常用的「sort of」，美國人常用的「like」或「you know」？你們會在 AI 的輸出中加入這些嗎？Justin Uberti: 這可以看作是語音技術(shù)從第一代到第二代的演進。OpenAI 的 GPT-4o 語音模式可以被視為第二代。第一代是語音轉(zhuǎn)文本，然后通過 LLM 處理，最后再文本轉(zhuǎn)語音。在這個過程中，沒有語氣詞，因為大型語言模型沒有接受過這方面的訓練。第二代模型則直接處理語音輸入和輸出，沒有中間的文本轉(zhuǎn)換步驟。在這種模式下，訓練數(shù)據(jù)中包含了語氣詞等對話特征。這些特征最終會成為語音 AI 的一部分，因為要真正參與對話，就需要能夠使用這些語氣詞。雖然 AI 不需要像人類一樣停頓思考，但在某些情況下，例如檢索信息時，AI 的響應速度可能會變慢。這時，使用語氣詞可以讓對話更自然流暢，避免尷尬的停頓。Jason Howell: 不過，我也能預見到很多人會因此批評 AI，認為它沒必要使用語氣詞。我們?nèi)祟愋枰?，?AI 不需要。但我認為，如果我們能克服這種觀念，或許可以讓對話感覺更自然。Justin Uberti: 我們正處于第二代語音 AI 發(fā)展的時代，我認為我們終將找到將人類對話的細微特征映射到 AI 交互中的方法。這將會非常有趣。在不久的將來，你可能閉上眼睛，都無法分辨是在與人還是與 AI 交談。我認為這將極大地促進像 ChatGPT 這樣的技術(shù)的發(fā)展，并吸引更廣泛的用戶，因為你只需要與它交談即可，非常便捷。Jason Howell: 除了 AI Town，F(xiàn)ixie 目前還有哪些其他項目？Justin Uberti: 我們最近開源了一個名為 Ultravox.ai 的語音 AI 模型，這是一個非常令人興奮的項目。它基于 Meta 的 Llama 3，并進行了多模態(tài)擴展，能夠理解語音并進行多模態(tài)交互，可以應用于像 AI Town 這樣的場景，實現(xiàn)更快速、更自然的語音交互體驗。我們希望通過開源這個模型，推動語音 AI 技術(shù)的快速發(fā)展，讓更多人受益。此外，我們還創(chuàng)建了 thefastest.ai 排行榜，用于跟蹤哪些大規(guī)模語言模型的速度最快，以便在低延遲的語音交互場景中使用。我們非常關(guān)注速度，因為低延遲是實現(xiàn)流暢自然語音交互的關(guān)鍵。Jason Howell: 真是非常精彩的工作！Justin，感謝你今天與我們分享這些寶貴的見解。原文：https://aiinside.show/episode/the-future-of-voice-interaction-with-justin-uberti編譯：傅豐元社區(qū)技術(shù)顧問：付則宇

更多閱讀來自開發(fā)者的AI編程上手實戰(zhàn)：如何用AI 提高編碼效率？哪款工具最好用？150億美元估值、從20日活到2億月活，Discord做對了什么?拿下諾貝爾獎、Anthropic創(chuàng)始人最看好的領(lǐng)域，AI for Science行業(yè)萬字解析做出最好大模型的 CEO，不認為 Scaling Law 撞墻了轉(zhuǎn)載原創(chuàng)文章請?zhí)硇牛篺ounderparker

閱讀原文