OpenAI安全系統(tǒng)負(fù)責(zé)人:從頭構(gòu)建視頻生成擴(kuò)散模型
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:OpenAI安全系統(tǒng)負(fù)責(zé)人:從頭構(gòu)建視頻生成擴(kuò)散模型
關(guān)鍵字:視頻,模型,時(shí)間,圖像,卷積
文章來源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):19347字
內(nèi)容摘要:
作者 |Lilian Weng
OneFlow編譯
翻譯|楊婷、宛子琳、張雪聃
題圖由SiliconFlow MaaS平臺(tái)生成
過去幾年,擴(kuò)散模型(Diffusion models)在圖像合成領(lǐng)域取得了顯著成效。目前,研究界已開始嘗試更具挑戰(zhàn)性的任務(wù)——將該技術(shù)用于視頻生成。視頻生成任務(wù)是圖像生成的擴(kuò)展,因?yàn)橐曨l本質(zhì)上是一系列連續(xù)的圖像幀。相較于單一的圖像生成,視頻生成的難度更大,原因如下:
它要求在時(shí)間軸上各幀之間保持時(shí)間一致性,這自然意味著需要將更多的世界知識(shí)嵌入到模型中。
相較于文本或圖像,收集大量高質(zhì)量、高維度的視頻數(shù)據(jù)難度更大,更不用說要獲取文本與視頻的配對(duì)數(shù)據(jù)了。
閱讀要求:在繼續(xù)閱讀本文之前,請(qǐng)確保你已經(jīng)閱讀了之前發(fā)布的關(guān)于圖像生成的“什么是擴(kuò)散模型?(https://lilianweng.github.io/posts/2021-07-11-diffusion-models/)”一文。(本文作者Lilian Weng是OpenAI的AI安全與對(duì)齊負(fù)責(zé)人。本文由OneFlow編譯發(fā)布,轉(zhuǎn)載請(qǐng)聯(lián)系授權(quán)。原文:https://lilianweng.github.io/post
原文鏈接:OpenAI安全系統(tǒng)負(fù)責(zé)人:從頭構(gòu)建視頻生成擴(kuò)散模型
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:AItists
作者簡(jiǎn)介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)