I2V3D

I2V3D – 香港城市大合微軟推出的圖像到視頻生成框架

I2V3D是什么

I2V3D是由香港城市大學與微軟GenAI合作開發的圖像到視頻轉換框架，旨在將靜態圖像轉化為動態視頻。該框架依托3D幾何引導，提供精確的動畫控制能力。I2V3D融合了傳統計算機圖形學的精確性與生成式AI模型的視覺真實感，采用兩階段生成流程：首先是3D引導的關鍵幀生成，其次是視頻插值，以實現高質量和可控的視頻輸出。此工具支持復雜的3D動畫和相機，使用戶能夠從任意起始點創建動畫，并生成任意長度的視頻序列，顯著降低了創作門檻，簡化了視頻生成過程，為動畫制作、視頻編輯及內容創作等領域提供了高效且靈活的解決方案。

I2V3D

I2V3D的主要功能

靜態圖像轉換為動態視頻：能夠將單一靜態圖像轉化為具備動態效果的視頻，支持復雜的動畫效果及相機。
精準的3D動畫控制：通過3D引導，實現對動畫的精細調控，包括物體的旋轉、平移、縮放及相機的（如旋轉、平移、變焦等）。
靈活的動畫起始點設置：支持用戶定義動畫的起始幀，并可以生成任意長度的視頻。
復雜場景編輯功能：用戶可以在3D場景中添加、復制、替換或編輯對象，創造全新的視頻內容。

I2V3D的技術原理

3D幾何重建：從單張圖像中重建完整的3D場景幾何結構，覆蓋前景對象和背景。前景對象被提取并轉化為3D網格，而背景則通過多視圖生成與3D網格重建完成。
雙階段視頻生成流程：
- 3D引導關鍵幀生成：利用定制的圖像擴散模型，以粗糙的渲染結果為引導，生成高質量的關鍵幀。多視圖增強與擴展注意力機制提升模型的泛化能力與時間一致性。
- 3D引導視頻插值：在關鍵幀之間生成平滑和高質量的視頻幀，無需訓練，采用雙向引導（正向與反向）確保視頻的時間連貫性。
深度引導與特征控制：視頻生成過程中，利用深度圖和渲染特征（如自注意力特征和卷積特征）作為控制信號，確保生成視頻與3D渲染結果保持一致。
擴展注意力機制：在關鍵幀生成階段，基于擴展注意力機制增強幀與幀之間的時空一致性，避免視頻生成中的閃爍或不連貫問題。