AIGC動態歡迎閱讀
內容摘要:
智猩猩和智東西發起主辦的2024中國生成式AI大會將于4月18-19日在北京舉辦。主會場將進行開幕式、大模型專場、AI Infra專場和AIGC應用專場;分會場將進行具身智能技術研討會、AI智能體技術研討會和中國智算中心創新論壇。掃名,也可咨詢。從openai sora[1]的技術報告首段可以看出sora的野心遠遠不止視頻生成,他們的目標是通過視頻數據來學習一個世界模型或者世界模擬器,這才是真正令人興奮和激動的部分。
01數據工程1-1 采用patches統一訓練數據格式
最早在ViT[2]現將圖片分patch輸入給transformer。Sora的做有些不同,首先通過一個encoder【VAE結構】將視頻幀壓縮到一個低維度隱式空間(包含時間和空間上的壓縮),然后展開成序列的形式送入模型訓練,同樣的模型預測也是隱式的序列,然后用decoder解碼器去解碼映射回像素空間形成視頻。注意在編碼成Spacetime latent patches的時候可能用到了ViViT[3]的時空編碼方式如此一來有兩個優勢:
統一互聯網上不同大小格式的視頻和圖片數據,統一為patches的格式輸入
原文鏈接:Sora技術詳解及影響分析!
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接AI新青年,講解研究成果,分享系統思考。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...