從圖像到視頻:淺談Video Diffusion Models背后的底層原理
AIGC動態(tài)歡迎閱讀
原標(biāo)題:從圖像到視頻:淺談Video Diffusion Models背后的底層原理
關(guān)鍵字:視頻,模型,張量,數(shù)據(jù),圖像
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
01前言最近一段時間恰好在推進(jìn)手上的一個做視頻生成相關(guān)的課??題,也是對視頻擴(kuò)散模型(Video Diffusion Models)這一領(lǐng)域有了頗多認(rèn)識。其中,視頻擴(kuò)散模型的很多設(shè)計都還要從圖像擴(kuò)散模型的時代講起。作為一個見證Stable Diffusion誕生,到入行可控圖像生成領(lǐng)域,到產(chǎn)出自己第一篇diffusion model相關(guān)的工作,再到目前產(chǎn)出第二個diffusion相關(guān)的視頻工作的在讀博士生,某種程度上可以說是見證了video diffusion models發(fā)展的歷程。
說到視頻生成這件事,真正讓這個話題走進(jìn)大家的視野的,其實(shí)還是今年年初Sora的首次亮相。Sora的亮相帶火了兩個東西——一個是Diffusion Transformer,另一個則是text-to-video generation這件事。至今時隔Sora亮相已經(jīng)過去了足足八個月之久,視頻生成領(lǐng)域的卷度貌似沒有我們想象中的那樣夸張。「夸張」這個標(biāo)準(zhǔn)我們可以用2022年到2024年,基于diffusion model的圖像生成技術(shù)論文來對比,根據(jù)我自己的GitHub調(diào)研倉庫結(jié)果顯示,2022年相關(guān)的文章發(fā)表數(shù)
原文鏈接:從圖像到視頻:淺談Video Diffusion Models背后的底層原理
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介: