Sora技術(shù)詳解及影響分析!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Sora技術(shù)詳解及影響分析!
關(guān)鍵字:報(bào)告,視頻,模型,結(jié)構(gòu),世界
文章來源:算法邦
內(nèi)容字?jǐn)?shù):5458字
內(nèi)容摘要:
智猩猩和智東西發(fā)起主辦的2024中國生成式AI大會(huì)將于4月18-19日在北京舉辦。主會(huì)場將進(jìn)行開幕式、大模型專場、AI Infra專場和AIGC應(yīng)用專場;分會(huì)場將進(jìn)行具身智能技術(shù)研討會(huì)、AI智能體技術(shù)研討會(huì)和中國智算中心創(chuàng)新論壇。掃名,也可咨詢。從openai sora[1]的技術(shù)報(bào)告首段可以看出sora的野心遠(yuǎn)遠(yuǎn)不止視頻生成,他們的目標(biāo)是通過視頻數(shù)據(jù)來學(xué)習(xí)一個(gè)世界模型或者世界模擬器,這才是真正令人興奮和激動(dòng)的部分。
01數(shù)據(jù)工程1-1 采用patches統(tǒng)一訓(xùn)練數(shù)據(jù)格式
最早在ViT[2]現(xiàn)將圖片分patch輸入給transformer。Sora的做有些不同,首先通過一個(gè)encoder【VAE結(jié)構(gòu)】將視頻幀壓縮到一個(gè)低維度隱式空間(包含時(shí)間和空間上的壓縮),然后展開成序列的形式送入模型訓(xùn)練,同樣的模型預(yù)測(cè)也是隱式的序列,然后用decoder解碼器去解碼映射回像素空間形成視頻。注意在編碼成Spacetime latent patches的時(shí)候可能用到了ViViT[3]的時(shí)空編碼方式如此一來有兩個(gè)優(yōu)勢(shì):
統(tǒng)一互聯(lián)網(wǎng)上不同大小格式的視頻和圖片數(shù)據(jù),統(tǒng)一為patches的格式輸入
原文鏈接:Sora技術(shù)詳解及影響分析!
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號(hào)之一,連接AI新青年,講解研究成果,分享系統(tǒng)思考。