AIGC動態歡迎閱讀
原標題:Sora之后,OpenAI Lilian Weng親自撰文教你從頭設計視頻生成擴散模型
關鍵字:視頻,模型,時間,卷積,注意力
文章來源:機器之心
內容字數:16393字
內容摘要:
選自Lil’Log
作者:Lilian Weng
機器之心編譯
編輯:Panda過去幾年來,擴散模型強大的圖像合成能力已經得到充分證明。研究社區現在正在攻克一個更困難的任務:視頻生成。近日,OpenAI 安全系統(Safety Systems)負責人 Lilian Weng 寫了一篇關于視頻生成的擴散模型的博客。Lilian Weng
機器之心對這篇博客進行了不改變原意的編譯、整理,以下是博客原文:
視頻生成任務本身是圖像合成的超集,因為圖像就是單幀視頻。視頻合成的難度要大得多,原因是:
1. 視頻合成還需要不同幀之間保持時間一致性,很自然,這需要將更多世界知識編碼到模型之中。
2. 相比于文本或圖像,收集大量高質量、高維度的視頻數據要更為困難,更罔論配對的文本 – 視頻數據了。
如果你想了解擴散模型在圖像生成方面的應用,可參讀本文作者 Lilian Weng 之前發布的博文《What are Diffusion Models?》鏈接:https://lilianweng.github.io/posts/2021-07-11-diffusion-models/
從頭建模視頻生成
首先,
原文鏈接:Sora之后,OpenAI Lilian Weng親自撰文教你從頭設計視頻生成擴散模型
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...