將Transformer用于擴(kuò)散模型,AI 生成視頻達(dá)到照片級(jí)真實(shí)感

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:將Transformer用于擴(kuò)散模型,AI 生成視頻達(dá)到照片級(jí)真實(shí)感
關(guān)鍵字:視頻,模型,注意力,圖像,報(bào)告
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):9333字
內(nèi)容摘要:機(jī)器之心報(bào)道編輯:Panda在視頻生成場(chǎng)景中,用 Transformer 做擴(kuò)散模型的去噪骨干已經(jīng)被李飛飛等研究者證明行得通。這可算得上是 Transformer 在視頻生成領(lǐng)域取得的一項(xiàng)重大成功。近日,一項(xiàng)視頻生成研究收獲了大量贊譽(yù),甚至被一位 X 網(wǎng)友評(píng)價(jià)為「好萊塢的終結(jié)」。真的有這么好嗎?我們先看下效果:??很明顯,這些視頻不僅幾乎看不到偽影,而且還非常連貫、細(xì)節(jié)滿滿,甚至似乎就算真的在電影大片中加上幾幀,也不會(huì)明顯違和。這些視頻的作者是來(lái)自斯坦福大學(xué)、谷歌、佐治亞理工學(xué)院的研究者提出的 Window Attention Latent Transformer,即窗口注意力隱 Transformer,簡(jiǎn)稱(chēng) W.A.L.T。該方法成功地將 Transformer 架構(gòu)整合到了隱視頻擴(kuò)散模型中。斯坦福大學(xué)的李飛飛教授也是該論文的作者之一。項(xiàng)目網(wǎng)站:https://walt-video-di…
原文鏈接:點(diǎn)此閱讀原文:將Transformer用于擴(kuò)散模型,AI 生成視頻達(dá)到照片級(jí)真實(shí)感
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)