「花果山名場(chǎng)面」有了高清畫質(zhì)版,NTU提出視頻超分框架Upscale-A-Video
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:「花果山名場(chǎng)面」有了高清畫質(zhì)版,NTU提出視頻超分框架Upscale-A-Video
關(guān)鍵字:時(shí)間,視頻,模型,紋理,卷積
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3519字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部擴(kuò)散模型在圖像生成方面取得了顯著的成功,但由于對(duì)輸出保真度和時(shí)間一致性的高要求,將這些模型應(yīng)用于視頻超分辨率仍然具有挑戰(zhàn)性,特別是其固有的隨機(jī)性使這變得復(fù)雜。
來(lái)自南洋理工大學(xué) S-Lab 的研究團(tuán)隊(duì)提出了一種用于視頻超分的文本指導(dǎo)(text-guided)潛在擴(kuò)散框架 ——Upscale-A-Video。該框架通過(guò)兩個(gè)關(guān)鍵機(jī)制確保時(shí)間一致性:在局部,它將時(shí)間層集成到 U-Net 和 VAE-Decoder 中,保持短序列的一致性;在全局范圍內(nèi),無(wú)需訓(xùn)練,就引入了流指導(dǎo)(flow-guided)循環(huán)潛在傳播模塊,通過(guò)在整個(gè)序列中傳播和融合潛在來(lái)增強(qiáng)整體視頻的穩(wěn)定性。論文地址:https://arxiv.org/abs/2312.06640
得益于擴(kuò)散范式,Upscale-A-Video 還提供了很大的靈活性,允許文本 prompt 指導(dǎo)紋理創(chuàng)建,并且可調(diào)節(jié)噪聲水平以平衡恢復(fù)(restoration)和生成,從而實(shí)現(xiàn)保真度和質(zhì)量之間的權(quán)衡。
實(shí)驗(yàn)結(jié)果表明,Upscale-A-Video 在合成和現(xiàn)實(shí)世界基準(zhǔn)上都超越了現(xiàn)有方法,展示了令人印象深刻的視覺(jué)真實(shí)感和時(shí)
原文鏈接:「花果山名場(chǎng)面」有了高清畫質(zhì)版,NTU提出視頻超分框架Upscale-A-Video
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)