OpenAI版Her登場,GPT能實時視頻通話了!德?lián)銩I之父:比 o1“更受寵”的模式降臨
整理|華衛(wèi)昨天OpenAI的風頭幾乎都被谷歌搶盡了,不少用戶都直接站隊Gemini 2.0 ,稱其是“GPT-5 級別的威脅”,不僅能生成文字外,還能直接生成圖片和語音。更為關(guān)鍵的是,Gemini 2.0供全球用戶使用,而且有專門的實驗版模型對所有開發(fā)者免費開放。今天,OpenAI就帶來了高級語音模式的功能更新:實時視頻通話、屏幕共享和圖像上傳。即日起,這三項功能將在接下來幾天內(nèi)向所有 Team、以及大多數(shù) ChatGPT Plus 和 Pro 用戶推出(歐盟、瑞士、冰島、挪威和列支敦士登的用戶除外),Enterprise 和 Edu 用戶將在明年 1 月獲得訪問權(quán)限。其中,屏幕共享和圖片上傳僅在 iOS 和 Android 移動應(yīng)用程序的高級語音模式中推出。現(xiàn)在ChatGPT可以“看到和聽到”高級語音模式在去年發(fā)布的 GPT-4o 中已經(jīng)預(yù)覽過,但只有音頻模式是實時的。現(xiàn)在,用戶可以使用手機攝像頭與 ChatGPT ,大模型將會 “看到 ”你所看到的一切,包括你的手機屏幕。進行實時視頻通話功能的演示時,OpenAI的首席產(chǎn)品官 Kevin Weil首先牽頭測試了一番ChatGPT的“記憶”能力。在OpenAI 的團隊成員依次與ChatGPT視頻打過招呼并有了一定的認識后,Weil要求它回憶各位成員的特征并說出相應(yīng)的姓名。接下來, Weil 又和其他 OpenAI 團隊成員演示了 ChatGPT 協(xié)助如何制作手沖咖啡:通過將攝像機對準動作,AVM 展示了它對咖啡機原理的理解,并引導(dǎo)提問者完成咖啡的整個沖泡過程。并且,在整個演示過程中,ChatGPT Advanced Voice 保持了自然而親切的聲音,還調(diào)整了它的語氣,甚至像人類一樣大笑。有網(wǎng)友開玩笑道,“下一步GPT該指導(dǎo)人做飯了。”還有網(wǎng)友表示,“Her正在慢慢成為現(xiàn)實”,“如果這不是 AGI,我不知道什么是。”該團隊還展示了 ChatGPT 如何理解上傳的屏幕截圖,這對于需要ChatGPT提供技術(shù)支持或協(xié)助處理屏幕內(nèi)容的情況非常有用。當選擇 “共享屏幕 ”時,會彈出手機的屏幕共享選項,允許用戶將屏幕廣播給 ChatGPT;開始屏幕共享后,再次按下屏幕共享按鈕即可停止與 ChatGPT 共享屏幕。同時,OpenAI官方提醒到,ChatGPT 可能會自動響應(yīng)用戶從相機或屏幕上分享的內(nèi)容。此外,在用戶停止分享后,ChatGPT 可能仍會引用其之前在對話中分享的內(nèi)容。但OpenAI保證,除非用戶啟用了“為每個人改進模型”,否則他們不會使用對話中上傳的音頻或視頻片段來訓(xùn)練大模型。比o1“更受歡迎”的模式來了?高級語音模式基于原生多模態(tài)GPT-4o模型,可以直接接收和輸出音頻,提供更自然的對話節(jié)奏和情感表達。OpenAI 首席技術(shù)官 Muri Murati 表示,GPT-4o 提供了“GPT-4 級別”的智能,但改進了 GPT-4 在文本、視覺以及音頻方面的能力。據(jù)介紹,高級語音模式支持超過50種語言,9種逼真輸出語音選項,且每種語音都有自己獨特的語氣和特征。而其背后的GPT-4o 不僅可以將語音轉(zhuǎn)換為文本,還可以理解和標記音頻的其他功能,例如呼吸和情感。在圣誕節(jié)期間,OpenAI還新增了Santa Mode(圣誕模式),用戶可以在ChatGPT中與圣誕老人的聲音進行實時互動,支持移動應(yīng)用、桌面應(yīng)用和網(wǎng)頁版。用戶通過點擊現(xiàn)在ChatGPT主屏幕上的雪花圖標,或者在設(shè)置頁面中找到并選擇圣誕老人,就你可以向圣誕老人詢問關(guān)于圣誕節(jié)的問題。為了讓更多用戶體驗與圣誕老人對話的功能,首次與圣誕老人進行高級語音對話的用戶,其高級語音使用額度將被重置一次。即使你當天的或本月的使用額度已用完,也可以立即與圣誕老人進行語音對話。超出重置后的額度后,用戶也可以通過文字方式與圣誕老人。OpenAI高級研究科學(xué)家、德?lián)銩I之父Noam Brown甚至稱,“我完全相信圣誕老人模式會比 o1 吸引來更多的訂閱用戶。”結(jié)語OpenAI直播第六天,CEO Sam Altman并沒有出現(xiàn),而是由包括OpenAI的首席產(chǎn)品官 Kevin Weil、OpenAI產(chǎn)品經(jīng)理Jackie Shannon、負責多模態(tài)的OpenAI技術(shù)團隊成員Michelle Qin和Rowan Zellers在內(nèi)的四位員工來介紹了更新的功能。其中,Michelle Qin是唯一的華人,入職OpenAI六個月。根據(jù)其個人主頁的介紹,Michelle Qin是斯坦福大學(xué)理學(xué)士和碩士畢業(yè)生,主修人工智能領(lǐng)域的計算機科學(xué)。此前曾有過在蘋果和Pika工作的經(jīng)歷。然而,OpenAI第六天的更新也迎來一波網(wǎng)友的吐槽。有網(wǎng)友評價,這次的更新很“無聊”,或許明天會“很瘋狂”。也有網(wǎng)友認為,“這只是Sora上線后的一個 ‘降溫 ’功能。”還有網(wǎng)友表示,“谷歌在正式發(fā)布之前就向用戶發(fā)布了 Gemini 2,并且從一開始就提供實時語音和視頻,OpenAI卻在發(fā)布后花了將近半年的時間才推出。”值得一提的是,就在昨天下午,ChatGPT 還突然宕機了近4個小時,就連新發(fā)布的Sora也未能幸免。ChatGPT宕機之時,眾多用戶都直呼“全球?qū)W術(shù)停擺了”。而這已經(jīng)不是ChatGPT第一次發(fā)生這樣的情況,上個月ChatGPT癱瘓了30分鐘,今年6月的宕機甚至持續(xù)了5小時以上。參考鏈接:https://help.openai.com/en/articles/8400625-voice-mode-faq會議推薦12 月 13 日至 14 日(周五至周六),AICon 全球人工智能開發(fā)與應(yīng)用大會將在北京盛大開幕!本次大會匯聚 70+ 位 AI 及技術(shù)領(lǐng)域的頂尖專家,深入探討大模型與推理、AI Agent、多模態(tài)、具身智能等前沿話題。此外還有豐富的圓桌論壇、以及展區(qū)活動,帶你深入探索大模型的最新實踐與未來趨勢。年度最后一次 AI 盛宴,讓我們一起見證 AI 未來。今日薦文ChatGPT Canvas免費啦!集成Python仿真器,支持在線修Bug,生產(chǎn)力飆升Sora 剛正式登場就把OpenAI系統(tǒng)干廢了!Altman緊急暫停新用戶注冊阿里合伙人為“爹味發(fā)言”道歉:自罰三個月工資;美圖出售加密貨幣獲利5.7億;虧損11億、上市對賭失敗,公司啟動全員降薪 | AI周報OpenAI深夜炸場!一口氣放出o1模型全家桶,月費200美元的ChatGPT Pro被狂槽:Altman只想躺在上數(shù)錢谷歌最強世界模型“硬控”O(jiān)penAI 一分鐘:智能體交互、替你玩游戲!等等,智能體們早在游戲里 cosplay、交友了!你也「在看」嗎??