標(biāo)簽:音頻

谷歌VideoPoet負(fù)責(zé)人蔣路跳槽TikTok!對(duì)標(biāo)Sora,AI視頻模型大戰(zhàn)在即

新智元報(bào)道編輯:編輯部 【新智元導(dǎo)讀】谷歌Research Lead,負(fù)責(zé)VideoPoet項(xiàng)目的蔣路,即將加入TikTok,負(fù)責(zé)視頻生成AI的開(kāi)發(fā)。谷歌VideoPoet項(xiàng)目Research Le...
閱讀原文

給 Sora 視頻配音,ElevenLabs 推出 AI 音效生成功能,離 AI 生成電影又近了一步!

Sora 之后的新突破來(lái)了! AI 語(yǔ)音克隆初創(chuàng)公司 ElevenLabs 宣布即將上線(xiàn) AI Sound Effects 功能,可以讓用戶(hù)輸入 Prompt 自動(dòng)生成聲音。在他們發(fā)布的演示短片...
閱讀原文

AI配音版Sora視頻刷屏!絕真音效打破「無(wú)聲電影」,或顛覆萬(wàn)億美元產(chǎn)業(yè)

新智元報(bào)道編輯:桃子 好困 【新智元導(dǎo)讀】Sora突破之后的突破又來(lái)了!語(yǔ)音初創(chuàng)公司ElevenLabs放大招,直接用AI給Sora經(jīng)典視頻完成了配音。網(wǎng)友驚呼離AI完全...
閱讀原文

音頻秒生全身虛擬人像,AI完美驅(qū)動(dòng)面部肢體動(dòng)作!UC伯克利Meta提出Audio2Photoreal

新智元報(bào)道編輯:拉燕 【新智元導(dǎo)讀】最近,來(lái)自Meta和UC伯克利的研究人員,發(fā)布了一種最新的音頻到人像模型。操作簡(jiǎn)單,輸出極致逼真。就在最近,Meta和UC伯...
閱讀原文

AI反詐!Deepfake音視頻檢測(cè)技術(shù)亮相CES,準(zhǔn)確率超90%

西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI離大譜,一個(gè)標(biāo)有美國(guó)消費(fèi)者新聞與商業(yè)頻道CNBC logo的視頻稱(chēng): “每個(gè)歐洲人靠ChatGPT,每周能賺3到4千歐元。” “投資...
閱讀原文

字節(jié)讓達(dá)芬奇和蒙娜麗莎“隔空吵架”,只需一張圖、一段音頻、一個(gè)情感片段

允中 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIAIGC在視頻生成領(lǐng)域展現(xiàn)出非凡的潛力。近期, 字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)和得克薩斯大學(xué)達(dá)拉斯分校又提出了一項(xiàng)名為DREAM-...
閱讀原文

GPT-5前瞻!艾倫人工智能研究所發(fā)布最強(qiáng)多模態(tài)模型,預(yù)測(cè)GPT-5新能力

新智元報(bào)道編輯:alan 【新智元導(dǎo)讀】近日,艾倫人工智能研究所發(fā)布了Unified-IO 2,——第一代Unified-IO曾預(yù)測(cè)了GPT-4等模型的能力,所以我們可以從新一代的...
閱讀原文

一句話(huà)精準(zhǔn)視頻片段定位!清華新方法拿下SOTA|已開(kāi)源

陳厚倫 投稿量子位 | 公眾號(hào) QbitAI只需一句話(huà)描述,就能在一大段視頻中定位到對(duì)應(yīng)片段! 比如描述“一個(gè)人一邊下樓梯一邊喝水”,通過(guò)視頻畫(huà)面和腳步聲的匹配...
閱讀原文

蘋(píng)果押注的這個(gè)新技術(shù),可能改變你聽(tīng)歌的方式

空間音頻 vs 3D 電影我一直在等待音樂(lè)領(lǐng)域里那個(gè)能改變游戲規(guī)則的東西。 2021 年,蘋(píng)果高級(jí)副總裁 Eddy Cue 在接受《滾石》雜志采訪時(shí)表示,「空間音頻」就是...
閱讀原文

谷歌推出視頻生成大型語(yǔ)言模型VideoPoet

點(diǎn)擊上方藍(lán)字關(guān)注我們“Google推出VideoPoet,一款生成式AI系統(tǒng),通過(guò)文本等輸入創(chuàng)建和編輯視頻。與競(jìng)爭(zhēng)模型不同,VideoPoet整合多項(xiàng)功能于單一模型,包括文本...
閱讀原文

視頻生成可以無(wú)限長(zhǎng)?谷歌VideoPoet大模型上線(xiàn),網(wǎng)友:性技術(shù)

機(jī)器之心報(bào)道 機(jī)器之心編輯部蒙娜麗莎打哈欠,小雞學(xué)會(huì)舉鐵……谷歌VideoPoet大模型表現(xiàn)很亮眼。2023 年底,科技公司都在沖擊生成式 AI 的最后一個(gè)關(guān)卡 —— 視頻...
閱讀原文

霉霉演唱《稻香》,國(guó)內(nèi)團(tuán)隊(duì)的Amphion音頻生成火了

機(jī)器之心專(zhuān)欄 機(jī)器之心編輯部香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院武執(zhí)政副教授團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室 OpenMMLab 團(tuán)隊(duì)開(kāi)源了綜合音頻生成項(xiàng)目 Amphion(安...
閱讀原文

谷歌10秒視頻生成模型破世界記錄!LLM終結(jié)擴(kuò)散模型,效果碾壓頂流Gen-2

新智元報(bào)道編輯:編輯部 【新智元導(dǎo)讀】谷歌全新視頻生成模型VideoPoet再次引領(lǐng)世界!十秒超長(zhǎng)視頻生成效果碾壓Gen-2,還可進(jìn)行音頻生成,風(fēng)格轉(zhuǎn)化。AI視頻生...
閱讀原文

走在GPT 4.5前面?3D、視頻直接扔進(jìn)對(duì)話(huà)框,大模型掌握跨模態(tài)推理

機(jī)器之心報(bào)道編輯:Panda W最近,有人在社交媒體上發(fā)布了一張有關(guān) GPT4.5 更新的截圖。圖中內(nèi)容顯示,和 GPT 系列之前推出的模型相比,GPT4.5 最大的驚喜可能...
閱讀原文

一張照片、一段聲音秒生超逼真視頻!南大等提出全新框架,口型動(dòng)作精準(zhǔn)還原

新智元報(bào)道編輯:潤(rùn) 好困【新智元導(dǎo)讀】最近,來(lái)自南大等機(jī)構(gòu)的研究人員開(kāi)發(fā)了一個(gè)通用的框架,用一段音頻就能讓照片上的頭像講多國(guó)語(yǔ)言。不論是頭部動(dòng)作還是...
閱讀原文
13456