OpenAI Sora視頻生成模型技術(shù)報(bào)告中英全文
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:OpenAI Sora視頻生成模型技術(shù)報(bào)告中英全文
關(guān)鍵字:報(bào)告,視頻,模型,圖像,能力
文章來源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):18264字
內(nèi)容摘要:
來源:專知
OpenAI 探索了視頻數(shù)據(jù)生成模型的大規(guī)模訓(xùn)練。具體來說,研究人員在可變持續(xù)時(shí)間、分辨率和寬高比的視頻和圖像上聯(lián)合訓(xùn)練了一個(gè)文本條件擴(kuò)散模型。作者利用對(duì)視頻和圖像潛在代碼的時(shí)空補(bǔ)丁進(jìn)行操作的 transformer 架構(gòu),其最大的模型 Sora 能夠生成長達(dá)一分鐘的高質(zhì)量視頻。
OpenAI 認(rèn)為,新展示的結(jié)果表明,擴(kuò)展視頻生成模型是構(gòu)建物理用模擬器的一條有前途的途徑。
We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image la
原文鏈接:OpenAI Sora視頻生成模型技術(shù)報(bào)告中英全文
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:AItists
作者簡介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)