超強干貨！OpenAI Sora文生視頻技術原理解讀

AIGC動態2年前 (2024)發布算法邦

AIGC動態歡迎閱讀

原標題：超強干貨！OpenAI Sora文生視頻技術原理解讀
關鍵字：模型,時間,視頻,空間,維度
文章來源：算法邦
內容字數：10936字

內容摘要：

智猩猩和智東西發起主辦的2024中國生成式AI大會將于4月18-19日在北京舉辦。主會場將進行開幕式、大模型專場、AI Infra專場和AIGC應用專場；分會場將進行具身智能技術研討會、AI智能體技術研討會和中國智算中心創新論壇。掃名，也可咨詢。OpenAI Sora文生視頻（圖像看作單幀視頻）一放出就炸翻整個AI 圈，也是ChatGPT掀起GenAI熱潮時隔一年后，OpenAI再次史詩級的更新。OpenAI 隨后公布的技術綜述[文獻1]，難掩其勃勃雄心：視頻生成模型作為世界模擬器。
筆者春節前原計劃整理一下對Google Lumiere 文生視頻的認知，多個因素遺憾推遲。對比看兩者大的技術方向均選擇了擴散模型，卻也有許多關鍵細節不同。恰好可以借著 OpenAI 技術綜述來提綱挈領，一起梳理一下，為什么筆者覺得這是又一史詩級的更新。
01Spacetime Latent Patches 潛變量時空碎片，建構視覺語言系統在“ChatGPT是第一個真正意義的人工通用智能”中，筆者總結過大語言模型借助Embedding將人類的語言 “編碼”成自己的語言，然后通過注意力Attention從

原文鏈接：超強干貨！OpenAI Sora文生視頻技術原理解讀