標簽:音頻

8人半年肝出開源版GPT-4o,0延遲演示全網(wǎng)沸騰!背后技術(shù)揭秘,人人免費用

新智元報道編輯:桃子 喬楊 【新智元導讀】GPT-4o或許還得等到今年秋季才對外開放。不過,由法國8人團隊打造的原生多模態(tài)Moshi,已經(jīng)實現(xiàn)了接近GPT-4o的水平...
閱讀原文

谷歌真·AI配音神器來了!自動看懂畫面、對齊音頻,能為任何視頻生成無數(shù)音頻

谷歌DeepMind發(fā)布最新AI視頻自動配音工具,AI視頻正式開啟有聲時代! 編譯|陳駿達 編輯|程茜 智東西6月18日消息,今日凌晨,谷歌DeepMind發(fā)布了一個名為V2A(...
閱讀原文

文生視頻又開始卷了!Runway、Luma、DeepMind 都有重磅更新

引領(lǐng)了 2024 年文生視頻熱潮的 Sora,至今沒有正式對外開放使用,而其他的文生視頻產(chǎn)品,在這半年內(nèi)開始了瘋狂進化。 上周,Luma AI 發(fā)布的 Dream Machine 讓...
閱讀原文

Google DeepMind 最新研究:為AI視頻生成創(chuàng)建逼真的背景聲音

來源:學術(shù)頭條 自 Sora 發(fā)布以來,國內(nèi)外各大科技公司和研究機構(gòu)都在競相推出“文生視頻”大模型,比如生數(shù)科技的 Vidu、快手的可靈和 Runway 昨天才發(fā)布的 Ge...
閱讀原文

殺瘋了!谷歌卷視頻到語音,逼真音效讓AI視頻告別無聲!

機器之心報道 編輯:楊文AI圈這遍地開花的大好局面,讓吃瓜群眾們甚是驚喜。 這幾天,大洋彼岸殺瘋了! Luma 的熱乎勁兒還沒過去,昨晚 Runway 就甩出一個王...
閱讀原文

霉霉開口唱碧昂絲的歌,又是AI!口型不出戲,五官姿態(tài)也自然,復旦百度等出品|GitHub攬星1k+

西風 發(fā)自 凹非寺量子位 | 公眾號 QbitAI一張人像、一段音頻參考,就能讓霉霉在你面前唱碧昂絲的《Halo》。 一種名為Hallo的研究火了,GitHub已攬星1k+。 話...
閱讀原文

37項SOTA!全模態(tài)預訓練范式MiCo:理解任何模態(tài)并學習通用表示|港中文&中科院

MiCo團隊 投稿量子位 | 公眾號 QbitAIGPT-4o掀起一股全模態(tài)(Omni-modal)熱潮,去年的熱詞多模態(tài)仿佛已經(jīng)不夠看了。 要構(gòu)建全模態(tài)智能,意味著能夠理解任何...
閱讀原文

GPT-4o僅排第二!北大港大等6所高校聯(lián)手,發(fā)布權(quán)威多模態(tài)大模型榜單!

夕小瑤科技說 原創(chuàng)作者 | 謝年年多模態(tài)大模型視頻分析能力榜單出爐: Gemini 1.5 Pro最強,GPT-4o僅排第二? 曾經(jīng)紅極一時的GPT-4V屈居第三。 最近,北大港大...
閱讀原文

Stability AI開源47秒音頻生成模型,蟲鳴鳥叫、搖滾、鼓點都能生成

機器之心報道 編輯:蛋醬、小舟音頻生成領(lǐng)域又有好消息:剛剛,Stability AI 宣布推出開放模型 Stable Audio Open,該模型能夠生成高質(zhì)量的音頻數(shù)據(jù)。項目地...
閱讀原文

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」

OpenAI「魔法」降臨。作者 | 賴文昕 今天凌晨,即北京時間5月14日1點整,OpenAI 召開了首場春季發(fā)布會,CTO Mira Murati 在臺上和團隊用短短不到30分鐘的時間...
閱讀原文

OpenAI顛覆世界:GPT-4o完全免費,實時語音視頻交互震撼全場,直接進入科幻時代

機器之心報道 機器之心編輯部ChatGPT 問世才 17 個月,OpenAI 就拿出了科幻電影里的超級 AI,而且完全免費,人人可用。太震撼了! 當各家科技公司還在追趕大...
閱讀原文

DeepMusic劉曉光:深度解讀AIGC音樂創(chuàng)作技術(shù)原理,明年實現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

深度解讀AIGC音樂創(chuàng)作技術(shù)原理,明年實現(xiàn)30秒人聲生成自唱歌曲。 2024中國生成式AI大會于4月18-19日在北京舉行,在大會第二天的主會場AIGC應(yīng)用專場上,DeepMu...
閱讀原文

一張照片+音頻=超逼真數(shù)字人視頻!VASA-1模型拉開「實時交互」大幕

新智元報道編輯:LRS 【新智元導讀】僅需一張照片加一段音頻,即可生成具有精確唇音同步、逼真面部行為和自然頭部運動的超逼真說話面部視頻,并且生成速度快...
閱讀原文

在線教程丨劉強東數(shù)字人首秀交易額破5千萬!用GeneFace++ 生成實時說話數(shù)字人

作者:十九 編輯:李寶珠,三羊 封面圖來源:GeneFace++ GeneFace++:輸入一段語音,就能生成目標人臉的說話視頻。近日,京東創(chuàng)始人劉強東化身「采銷東哥 AI ...
閱讀原文

微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人

新智元報道編輯:LRS 【新智元導讀】想要做出一段能夠「以假亂真的人物說話視頻」的門檻到底低到什么程度了?僅需一張照片加一段音頻,就能生成一段堪稱真實...
閱讀原文