国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

WebRTC創(chuàng)建者加入了OpenAI,他如何思考語音AI的未來?

AIGC動態(tài)11個月前發(fā)布 Founder Park
630 0 0

WebRTC 的早期創(chuàng)建者之一,F(xiàn)ixie.ai 聯(lián)合創(chuàng)始人兼 CTO Justin Uberti 近日宣布加入 OpenAI,領(lǐng)導實時 AI (Real-Time AI)項目的開發(fā)。Uberti 在 2011 年于 Google 參與創(chuàng)建并領(lǐng)導了 WebRTC 項目,并推動其成為 W3C 和 IETF 標準。從最早參與 AOL Instant Messenger(AIM)開始,他見證了人與人之間溝通方式從文字到音視頻的演變。現(xiàn)在,他正在積極推動人與 AI 的交互從文本框走向更自然的語音對話。2023 年完成種子輪融資,F(xiàn)ixie.ai 初期專注于 AI Agent 搭建平臺,后來轉(zhuǎn)向 Uberti 更為擅長的實時 AI 領(lǐng)域,先后推出了虛擬角色語音對話網(wǎng)站 AI.TOWN、大模型速度評測平臺 thefastest.ai,以及最近發(fā)布的開源語音模型 Ultravox(編者注:我們剛翻譯了 Ultravox 提出的「人類級別語音 AI 路線圖」)。11 月 26 日 Uberti 宣布離開 Fixie.ai,加入 OpenAI。我們找到了他今年 6 月以 Fixie.ai 聯(lián)創(chuàng)身份參與播客 AI Inside 的節(jié)目,摘錄了部分精彩對話,希望能幫助大家理解 Justin Uberti 對語音 AI 未來的思考。核心觀點語音交互是 AI 的未來:「我們正處于 AI 能夠理解和運用語音,并最終可能結(jié)合視覺進行多模態(tài)交互的時代?!刮覀冋貧w對話式社會:「印刷術(shù)出現(xiàn)之前,社會是對話式的,后來被文本主導……我們正回歸對話式社會?!笰I 在對話中不易出錯:「大型語言模型擅長對話,對話也具有自我修復特性?!拐Z音 AI 提供了一個「不被批判」的環(huán)境:「練習口語的人可以在一個沒有評判的環(huán)境中與 AI 角色交談,甚至可以請角色指出錯誤?!孤曇艨寺〖夹g(shù)的倫理至關(guān)重要:「語音提供商正努力防止克隆聲音用于欺詐的情況,例如對語音加水印,征得同意,甚至要求用戶錄制視頻并出示身份證明?!笰I 的「幻覺」可以是積極的:「在虛構(gòu)的 AI 角色場景中,『幻覺』反而是好事,因為它可以補充角色個性?!沟脱舆t是流暢語音交互的關(guān)鍵:「低延遲不僅僅是為了讓對話更流暢,它實際上會影響對話的語義理解?!拐Z氣詞對自然對話至關(guān)重要:「像『嗯』、『呃』這樣的語氣詞實際上是對話流程中的一部分,用來控制話語權(quán)的……這些特征最終會成為語音 AI 的一部分?!苟说蕉四P椭苯犹幚碚Z音,所以更自然:「我們終將找到將人類對話的細微特征映射到 AI 交互中的方法?!拐Z音交互的未來:對話 Justin UbertiThe Future of Voice Interaction(with Justin Uberti)主播:Jason Howell、Jeff Jarvis嘉賓:Justin Uberti注:為便于閱讀,本文內(nèi)容已作精簡,并非完整對話。你可以訪問原文收聽完整版播客。01從文本消息到語音 AI 交互Jason Howell: Justin,歡迎!我從你在 Google 時期就關(guān)注你的工作,你領(lǐng)導了 WebRTC、Hangouts Video、Duo 和 Stadia 等項目,之后加入 Clubhouse,現(xiàn)在是 Fixie.ai 聯(lián)合創(chuàng)始人兼 CTO。你豐富的 AI 經(jīng)驗是如何引領(lǐng)你創(chuàng)建 Fixie 和 AI Town 的?Justin Uberti: 我一直對語音/視頻對話和純文本對話的差異很感興趣。我早期參與了 AOL Instant Messenger,它能即時發(fā)送消息,這在當時很神奇。后來我們添加了音視頻功能,因為它們承載的信息更豐富?,F(xiàn)在,Instagram 和 TikTok 等應用都以視頻為中心,因為它更具吸引力。Clubhouse 也證明了語音的魅力,它能傳達文本無法表達的情感。我認為與 AI 的交互也應如此。ChatGPT 很強大,但它像個新型命令行工具——輸入文本,輸出文本,很多人不知如何有效使用它。Jason Howell: 的確如此。我剛接觸 AI 時,雖然知道它潛力巨大,但不知從何入手,直到我自己用它解決實際問題。Justin Uberti:與電腦對話對很多人仍是挑戰(zhàn)。處理重要事情時,人們更傾向于面對面或通過語音/視頻溝通。疫情期間,Google Meet 等工具的普及也印證了這一點。我們也應期待 AI 以更自然的方式與我們互動。語音是人類與生俱來的能力,它比文字更豐富。我們正處于 AI 能夠理解和運用語音,并最終可能結(jié)合視覺進行多模態(tài)交互的時代。在 Fixie,我們正構(gòu)建工具,讓 AI 更自然地使用語音交互。AI Town 就是這樣一個平臺,你可以在那里通過語音與 AI 交流。02與 AI 對話:「我們正回歸對話式社會」Jason Howell: 關(guān)于語音 AI,我想到的是視頻會議,你在 Hangouts Video 和 Duo 經(jīng)驗豐富?,F(xiàn)在應用中的 AI 就像視頻會議中加入了智能體。隨著語音 AI 越來越像人類,它能解析對話并成為助手,AI 語音成為我們在線對話一部分指日可待?;蛟S這已發(fā)生,只是我未注意到。Justin Uberti:的確如此。語音部分的發(fā)展可能比助手部分更快。我們希望助手能代表我們行動,但目前的 AI 缺乏內(nèi)部審查機制,難以判斷正確行動。我們不放心讓 AI 代表我們做不可逆轉(zhuǎn)的事,例如發(fā)郵件或安排日程。但 AI 在對話中不易出錯。大型語言模型擅長對話,對話也具有自我修復特性。Jeff Jarvis: 我寫過一本書 The Gutenberg Parenthesis,探討印刷和文本的時代。在此之前,社會是對話式的,后來被文本主導。我認為我們正回歸對話式社會。廣播出現(xiàn)時,報紙堅稱耳朵不是學習的好方法,必須通過眼睛。你認為人們是否需要重新學習對話?Justin Uberti:人們知道如何與親友交談。與電腦交談可能需要適應,但不難。有人曾說人們不想與電腦交談,我說你每天都在和電腦交談數(shù)小時, 他說是用手指。我說,想象一下,另一端是 AI。幾年后,你會以同樣方式看待與 AI 的對話,就像 Zoom 通話一樣。語音比文字傳遞的信息更多。Jeff Jarvis: GPT-4o 和 Scarlett Johansson 后(編者注:OpenAI 的 GPT-4o 語音助手因使用與電影 Her 演員 Scarlett Johansson 聲音相似的合成語音引發(fā)爭議),關(guān)于擬人化,讓人們相信他們在與人類交談是你的目標嗎?你想創(chuàng)建什么樣的倫理框架?Justin Uberti: 我們認為這波浪潮即將到來,但正確的實驗方式是在低風險環(huán)境中進行,主要用于閑聊和娛樂,就像我們在 AI Town 所做的。我們創(chuàng)建了一個環(huán)境,你可以在那里與不同的 AI 角色交談,它們有自己的生活,會發(fā)布社交媒體帖子,你可以給他們發(fā)短信,也可以語音通話。Jeff Jarvis: 你是這個領(lǐng)域的先驅(qū),有機會定義這項技術(shù)的正確和錯誤使用方式。你認為這項技術(shù)的壞處是什么?Justin Uberti: 一些明顯的壞處包括克隆聲音用于欺詐。業(yè)內(nèi)領(lǐng)先的語音提供商正努力防止這種情況,例如對語音加水印,征得同意,甚至要求用戶錄制視頻并出示身份證明。另一個挑戰(zhàn)是,我們曾經(jīng)相信出版的文本是真實的,但現(xiàn)在不是了。生成式 AI 也讓我們無法相信照片一定是真實的。語音也面臨同樣的問題。Jeff Jarvis: 印刷術(shù)剛出現(xiàn)時,人們也不信任它,因為它缺乏來源。后來我們建立了機構(gòu)來驗證真實性。我認為這里的機會是,你的 AI 來自哪里?你的聲音來自哪里?它的來源、知識、行為以及是誰把它帶給你的?這些都是重要的人類問題,也是機遇。03人類為何與虛擬角色對話?以及「幻覺」的妙用Jason Howell: 你提到了 AI Town,它就像與虛擬或真實角色進行語音對話,你也可以通過文字與他們交流。它是一個低風險的體驗環(huán)境。你在用戶與網(wǎng)站上的角色互動時,看到了哪些讓你感到驚訝的事情?Justin Uberti: 我們最初創(chuàng)建了 HiSanta.ai,讓人們與圣誕老人和精靈語音互動。我們本以為這只是一個測試,但需求遠超預期。我們意識到,人們很喜歡與虛構(gòu)角色,特別是那些耳熟能詳?shù)慕巧徽劇JフQ老人就是一個非常受歡迎的例子。我們還創(chuàng)造了一個「壞圣誕老人」,他也很受歡迎。我們希望人們能與 AI 角色進行有趣對話,并發(fā)現(xiàn)人們真正感興趣的話題。事實證明,虛構(gòu)角色是樂趣和有趣對話的豐富來源。Jeff Jarvis: 創(chuàng)建一個虛構(gòu)角色需要做些什么?你需要多深入的描述?Justin Uberti:我們有一個優(yōu)化過的流程,你甚至可以通過語音完成。系統(tǒng)會問你幾個問題,幫助你構(gòu)建角色的背景故事。大型語言模型非常擅長角色扮演。你告訴它你的身份、興趣等等,它就會順著你的描述進行下去。我們通常認為大型語言模型的「幻覺」不好,但在這種虛構(gòu)的 AI 角色場景中,「幻覺」反而是好事,因為它可以補充角色個性。Jason Howell: 你提到了「幻覺」,我認為它是否負面取決于具體情況。如果追求事實,那么「幻覺」不好。但如果追求創(chuàng)造力,「幻覺」則可能很棒。Jeff Jarvis: 《衛(wèi)報》最近刊登了一篇文章,認為 AI 可以治愈人類的孤獨感。你的目標有這么高尚嗎?或者只是為了娛樂?Justin Uberti: 這是一個相當崇高的目標。我們發(fā)現(xiàn) AI Town 的一個用例是幫助英語作為第二語言的人練習口語。他們可以在一個沒有評判的環(huán)境中與 AI 角色交談,甚至可以請角色指出錯誤。Jason Howell: 這很有意義。因為你不必擔心被評判,你知道你交談的對象是 AI。Justin Uberti: 不被評判很重要。我認為這可以幫助人們建立自信。04低延遲和語氣詞的作用Jason Howell: 在語音到語音模型的開發(fā)過程中,你們遇到了哪些當時沒有預料到的挑戰(zhàn)?Justin Uberti: 挑戰(zhàn)有很多。人耳對聲音非常敏感,很容易分辨出聲音的自然度。AI 的響應速度至關(guān)重要。在 Duo、Google Meet 等產(chǎn)品中,我們的延遲標準是 250 毫秒。WebRTC 協(xié)議本身的設(shè)計就考慮到了低延遲的需求。人類對話的節(jié)奏非常快。如果延遲過高,就會出現(xiàn)一方打斷另一方,或者出現(xiàn)長時間的停頓,這會影響對話的流暢性。超過 600 毫秒的延遲,聽起來就會像是故意停頓的。所以,低延遲不僅僅是為了讓對話更流暢,它實際上會影響對話的語義理解。我們使用的 WebRTC 技術(shù)專注于低延遲,而且我認為整個 AI 生態(tài)系統(tǒng)都需要做出一些調(diào)整,來適應低延遲的語音交互。Jeff Jarvis: 你們一定對人類對話的本質(zhì)做了很多研究吧。有什么有趣的發(fā)現(xiàn)可以分享嗎?Justin Uberti: 像「嗯」、「呃」這樣的語氣詞,通常被認為是不規(guī)范的、應該避免的。但實際上,它們是對話流程中的一部分,用來控制話語權(quán)的。Jason Howell: 這很有意思。我做播客的時候經(jīng)常用 AI 生成文字稿,「嗯」、「呃」這些語氣詞在文字稿和實際聽到的效果完全不同。聽的時候,它們可以連接上下文,讓對話更流暢。但在文字里,它們會顯得說話的人表達不清。Jeff Jarvis: 我記得我第一次接受媒體采訪的時候,制作人告訴我他們會對我的話進行大量的剪輯。他特意告訴我這一點,是因為他知道我會經(jīng)常在一個句子中間重新開始,而他們會把這些重新開始的部分剪掉。他們還做過一期節(jié)目,把所有人的「嗯」和「呃」都去掉了,這樣顯得嘉賓更聰明。這就引出一個新聞倫理的問題:你是應該展現(xiàn)一個人的真實狀態(tài),還是出于某種「禮貌」,在文字稿里去掉這些語氣詞?我們?nèi)绾瓮ㄟ^一個人的說話方式來判斷他的智力水平,這真是一個耐人尋味的問題。Justin Uberti: 即興講話的時候,很難組織出非常嚴謹?shù)亩温?。你在開口之前,并不會完全想好要說什么。你在報紙上看到的引語,通常都經(jīng)過了潤色,去掉了所有的錯誤和語氣詞?,F(xiàn)在,對視頻或音頻內(nèi)容進行同樣的處理,也會產(chǎn)生類似的效果。但我認為,這樣做會扭曲說話者的真實形象。05「我們正處于第二代語音 AI 發(fā)展的時代」Jeff Jarvis: 你們會為 AI 添加這些人類語氣詞嗎?比如英國人常用的 「sort of」,美國人常用的 「like」 或 「you know」?你們會在 AI 的輸出中加入這些嗎?Justin Uberti: 這可以看作是語音技術(shù)從第一代到第二代的演進。OpenAI 的 GPT-4o 語音模式可以被視為第二代。第一代是語音轉(zhuǎn)文本,然后通過 LLM 處理,最后再文本轉(zhuǎn)語音。在這個過程中,沒有語氣詞,因為大型語言模型沒有接受過這方面的訓練。第二代模型則直接處理語音輸入和輸出,沒有中間的文本轉(zhuǎn)換步驟。在這種模式下,訓練數(shù)據(jù)中包含了語氣詞等對話特征。這些特征最終會成為語音 AI 的一部分,因為要真正參與對話,就需要能夠使用這些語氣詞。雖然 AI 不需要像人類一樣停頓思考,但在某些情況下,例如檢索信息時,AI 的響應速度可能會變慢。這時,使用語氣詞可以讓對話更自然流暢,避免尷尬的停頓。Jason Howell: 不過,我也能預見到很多人會因此批評 AI,認為它沒必要使用語氣詞。我們?nèi)祟愋枰?,?AI 不需要。但我認為,如果我們能克服這種觀念,或許可以讓對話感覺更自然。Justin Uberti: 我們正處于第二代語音 AI 發(fā)展的時代,我認為我們終將找到將人類對話的細微特征映射到 AI 交互中的方法。這將會非常有趣。在不久的將來,你可能閉上眼睛,都無法分辨是在與人還是與 AI 交談。我認為這將極大地促進像 ChatGPT 這樣的技術(shù)的發(fā)展,并吸引更廣泛的用戶,因為你只需要與它交談即可,非常便捷。Jason Howell: 除了 AI Town,F(xiàn)ixie 目前還有哪些其他項目?Justin Uberti: 我們最近開源了一個名為 Ultravox.ai 的語音 AI 模型,這是一個非常令人興奮的項目。它基于 Meta 的 Llama 3,并進行了多模態(tài)擴展,能夠理解語音并進行多模態(tài)交互,可以應用于像 AI Town 這樣的場景,實現(xiàn)更快速、更自然的語音交互體驗。我們希望通過開源這個模型,推動語音 AI 技術(shù)的快速發(fā)展,讓更多人受益。此外,我們還創(chuàng)建了 thefastest.ai 排行榜,用于跟蹤哪些大規(guī)模語言模型的速度最快,以便在低延遲的語音交互場景中使用。我們非常關(guān)注速度,因為低延遲是實現(xiàn)流暢自然語音交互的關(guān)鍵。Jason Howell: 真是非常精彩的工作!Justin,感謝你今天與我們分享這些寶貴的見解。原文:https://aiinside.show/episode/the-future-of-voice-interaction-with-justin-uberti編譯:傅豐元社區(qū)技術(shù)顧問:付則宇


更多閱讀來自開發(fā)者的AI編程上手實戰(zhàn):如何用AI 提高編碼效率?哪款工具最好用?150億美元估值、從20日活到2億月活,Discord做對了什么?拿下諾貝爾獎、Anthropic創(chuàng)始人最看好的領(lǐng)域,AI for Science行業(yè)萬字解析做出最好大模型的 CEO,不認為 Scaling Law 撞墻了轉(zhuǎn)載原創(chuàng)文章請?zhí)硇牛篺ounderparker

閱讀原文
? 版權(quán)聲明
蟬鏡AI數(shù)字人

相關(guān)文章

蟬鏡AI數(shù)字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        色激情天天射综合网| 欧美日韩国产成人在线91| 亚洲精品欧美专区| 麻豆精品一区二区综合av| 欧美视频在线观看一区| 亚洲免费在线播放| 99久久精品费精品国产一区二区| 91精品国产欧美一区二区成人| 精品成人一区二区| 国产一区二区不卡| 久久影院视频免费| 国产蜜臀97一区二区三区| 极品少妇一区二区| 久久久久久久久99精品| 国产麻豆欧美日韩一区| 久久九九99视频| 成人av在线影院| 亚洲国产美女搞黄色| 欧美丰满高潮xxxx喷水动漫| 日本不卡中文字幕| wwwwww.欧美系列| 成人av免费在线播放| 亚洲黄色性网站| 日韩色在线观看| 99视频精品全部免费在线| 亚洲国产人成综合网站| 亚洲成在线观看| 一本到一区二区三区| 另类小说综合欧美亚洲| 亚洲视频资源在线| 精品国产百合女同互慰| 欧美综合一区二区| 成人午夜大片免费观看| 日本网站在线观看一区二区三区| 久久久美女毛片| 7777精品伊人久久久大香线蕉完整版 | 天天色天天操综合| 欧美一区二区在线视频| 色综合亚洲欧洲| 成人在线视频一区| 91影院在线免费观看| 国产精品久久久久国产精品日日| 欧美在线播放高清精品| 国产成人精品亚洲777人妖| 麻豆高清免费国产一区| 亚洲狠狠丁香婷婷综合久久久| 精品国产百合女同互慰| 欧美xxxxxxxx| 久久久久久久久久久久久久久99 | 欧美日韩成人综合| 色av综合在线| 欧美一区二区在线看| 欧美日韩1区2区| 欧美成人官网二区| 亚洲免费观看高清| 波多野结衣中文字幕一区 | 国产精品一区二区三区四区| 91蜜桃在线免费视频| 一区二区三区四区在线播放 | 中文字幕精品一区二区精品绿巨人| 亚洲午夜免费福利视频| 欧美年轻男男videosbes| 欧美一区二区在线免费观看| 麻豆精品一区二区综合av| 久久久久久久网| 日韩电影在线一区二区三区| 国内精品久久久久影院色| 91精品一区二区三区在线观看| 不卡av在线网| 亚洲一级在线观看| 日本不卡一区二区| 欧美中文字幕亚洲一区二区va在线| 欧美一级生活片| 亚洲国产成人av网| 日本精品免费观看高清观看| 日韩欧美你懂的| 日韩国产欧美一区二区三区| 99久久久久久99| 国产一区二区福利视频| 制服视频三区第一页精品| 欧美日韩一区二区三区免费看 | 99精品热视频| 中文字幕国产精品一区二区| 久久成人精品无人区| 91精品黄色片免费大全| 亚洲成人av资源| 欧美三级在线看| 免费看欧美美女黄的网站| 制服丝袜中文字幕一区| 久久99精品国产91久久来源| 国产福利精品一区| 波多野结衣精品在线| 综合久久国产九一剧情麻豆| 成人高清免费在线播放| 国产精品看片你懂得| 日本韩国视频一区二区| 亚洲一区二区三区小说| 欧美高清www午色夜在线视频| 亚洲高清不卡在线| 久久婷婷综合激情| 3atv在线一区二区三区| 蜜臀av一级做a爰片久久| 久久久国产一区二区三区四区小说| 国产美女精品人人做人人爽| 国产女人aaa级久久久级| 91一区二区三区在线观看| 奇米一区二区三区| 亚洲线精品一区二区三区八戒| 欧美一级生活片| 欧美日韩一区高清| 99久久夜色精品国产网站| 久久精品99久久久| 日韩精品成人一区二区三区| 国产精品久久久久久亚洲伦| 欧美zozozo| 日韩免费视频一区| 91精品国产综合久久福利软件| 93久久精品日日躁夜夜躁欧美| 国产美女av一区二区三区| 日韩有码一区二区三区| 亚洲黄色av一区| 亚洲精品成人天堂一二三| 国产欧美va欧美不卡在线| 亚洲精品在线观| 亚洲欧美在线高清| 久久久亚洲午夜电影| 日韩你懂的在线观看| 337p粉嫩大胆噜噜噜噜噜91av| 日韩精品一区在线| 久久久综合激的五月天| 国产欧美一区二区三区网站| 日本一区二区三区电影| 综合色天天鬼久久鬼色| 亚洲综合成人在线视频| 麻豆极品一区二区三区| 欧美性欧美巨大黑白大战| 欧美精品三级在线观看| 亚洲精品一区二区三区香蕉 | 极品少妇xxxx精品少妇偷拍| 激情综合网最新| 91网站黄www| 精品国产欧美一区二区| 亚洲一卡二卡三卡四卡无卡久久| 免费人成在线不卡| 日本高清视频一区二区| 欧美精品一级二级三级| 国产精品萝li| 九一久久久久久| 欧美日韩国产综合久久| 国产精品女上位| 国产专区欧美精品| 久久综合999| 精品一区二区三区免费播放| 欧美乱妇15p| 五月天婷婷综合| 欧美三区免费完整视频在线观看| 国产欧美一区二区精品性| 韩国欧美国产1区| 精品少妇一区二区三区日产乱码| 亚洲午夜久久久久久久久电影院 | 国产成人精品午夜视频免费| 26uuu色噜噜精品一区| 国产做a爰片久久毛片| 欧美精品一区二区三| 国内一区二区在线| 久久精品男人天堂av| 成人免费高清视频在线观看| 国产精品无码永久免费888| 91色porny| 免费在线看成人av| 国产性天天综合网| 91精彩视频在线观看| 蜜桃视频一区二区三区在线观看| 日韩精品一区二| 91麻豆国产精品久久| 精品中文字幕一区二区| 亚洲欧美日韩国产另类专区| 欧美午夜精品一区二区三区| 日韩国产在线一| 亚洲美女免费视频| 久久精子c满五个校花| 国产精品久久久久影院亚瑟| 国产在线播放一区三区四| 国产精品无码永久免费888| 欧美精品粉嫩高潮一区二区| 国产91对白在线观看九色| 亚洲福利国产精品| 一区二区中文视频| 国产精品区一区二区三区| 精品久久久三级丝袜| 91精品国产91久久久久久最新毛片| 9色porny自拍视频一区二区| 国内成人自拍视频| 国内精品自线一区二区三区视频| 亚洲高清视频的网址| 亚洲美女偷拍久久| 亚洲精选在线视频| 亚洲福中文字幕伊人影院| 亚洲网友自拍偷拍| 水蜜桃久久夜色精品一区的特点|