OpenAI安全系統(tǒng)負(fù)責(zé)人：從頭構(gòu)建視頻生成擴(kuò)散模型

AIGC動(dòng)態(tài)12個(gè)月前發(fā)布人工智能學(xué)家

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：OpenAI安全系統(tǒng)負(fù)責(zé)人：從頭構(gòu)建視頻生成擴(kuò)散模型
關(guān)鍵字：視頻,模型,時(shí)間,圖像,卷積
文章來源：人工智能學(xué)家
內(nèi)容字?jǐn)?shù)：19347字

內(nèi)容摘要：

作者 |Lilian Weng
OneFlow編譯
翻譯｜楊婷、宛子琳、張雪聃
題圖由SiliconFlow MaaS平臺(tái)生成
過去幾年，擴(kuò)散模型（Diffusion models）在圖像合成領(lǐng)域取得了顯著成效。目前，研究界已開始嘗試更具挑戰(zhàn)性的任務(wù)——將該技術(shù)用于視頻生成。視頻生成任務(wù)是圖像生成的擴(kuò)展，因?yàn)橐曨l本質(zhì)上是一系列連續(xù)的圖像幀。相較于單一的圖像生成，視頻生成的難度更大，原因如下：
它要求在時(shí)間軸上各幀之間保持時(shí)間一致性，這自然意味著需要將更多的世界知識(shí)嵌入到模型中。
相較于文本或圖像，收集大量高質(zhì)量、高維度的視頻數(shù)據(jù)難度更大，更不用說要獲取文本與視頻的配對(duì)數(shù)據(jù)了。
閱讀要求：在繼續(xù)閱讀本文之前，請(qǐng)確保你已經(jīng)閱讀了之前發(fā)布的關(guān)于圖像生成的“什么是擴(kuò)散模型？（https://lilianweng.github.io/posts/2021-07-11-diffusion-models/）”一文。（本文作者Lilian Weng是OpenAI的AI安全與對(duì)齊負(fù)責(zé)人。本文由OneFlow編譯發(fā)布，轉(zhuǎn)載請(qǐng)聯(lián)系授權(quán)。原文：https://lilianweng.github.io/post

原文鏈接：OpenAI安全系統(tǒng)負(fù)責(zé)人：從頭構(gòu)建視頻生成擴(kuò)散模型