產品名稱:See3D
產品簡介:See3D(See Video, Get 3D)是北京智源人工智能研究院推出的3D生成模型,能基于大規模無標注的互聯網視頻進行學習,實現從視頻中生成3D內容。與傳統依賴相機參數的3D生成模型不同,See3D采用視覺條件技術,僅通過視頻中的視覺線索生成相機方向可控且幾何一致的多視角圖像。
詳細介紹:
See3D是什么
See3D(See Video, Get 3D)是北京智源人工智能研究院推出的3D生成模型,能基于大規模無標注的互聯網視頻進行學習,實現從視頻中生成3D內容。與傳統依賴相機參數的3D生成模型不同,See3D采用視覺條件技術,僅通過視頻中的視覺線索生成相機方向可控且幾何一致的多視角圖像。避免了昂貴的3D或相機標注的需求,能高效地從互聯網視頻中學習3D先驗。See3D支持從文本、單視圖和稀疏視圖到3D的生成,能進行3D編輯與高斯渲染。
See3D的主要功能
- 從文本、單視圖和稀疏視圖到3D的生成:See3D能根據文本描述、單個視角的圖片或少量圖片生成3D內容。
- 3D編輯與高斯渲染:模型支持對生成的3D內容進行編輯,使用高斯渲染技術來提高渲染效果。
- 解鎖3D互動世界:輸入圖片后,可以生成沉浸式可交互的3D場景,支持用戶實時探索真實空間結構。
- 基于稀疏圖片的3D重建:輸入少量圖片(3-6張),模型能生成精細化的3D場景。
- 開放世界3D生成:根據文本提示,模型可以生成藝術化的圖片,基于此圖片生成虛擬化的3D場景。
- 基于單視圖的3D生成:輸入一張真實場景的圖片,模型能生成逼真的3D場景。
See3D的技術原理
- 視覺條件技術:See3D不依賴于傳統的相機參數,采用視覺條件技術,通過視頻中的視覺線索生成相機方向可控且幾何一致的多視角圖像。
- 大規模無標注視頻學習:See3D能從互聯網視頻中高效學習3D先驗,不依賴于昂貴的3D或相機標注。
- 數據集構建:團隊構建了一個高質量、多樣化的大規模多視角圖像數據集WebVi3D,涵蓋來自1600萬個視頻片段的3.2億幀圖像,數據集可以通過自動化流程隨互聯網視頻量的增長不斷擴充。
- 多視圖擴散模型訓練:See3D引入了一種新的視覺條件,通過向掩碼視頻數據添加時間依賴噪聲,生成純粹的2D歸納視覺信號,支持可擴展的多視圖擴散模型(MVD)訓練,避免了對相機條件的依賴,實現了“僅通過視覺獲得3D”的目標。
- 3D生成框架:See3D學到的3D先驗能使一系列3D創作應用成為可能,包括基于單視圖的3D生成、稀疏視圖重建以及開放世界場景中的3D編輯等,支持在物體級與場景級復雜相機軌跡下的長序列視圖的生成。
See3D的項目地址
- 項目官網:https://vision.baai.ac.cn/see3d
- Github倉庫:https://github.com/baaivision/See3D
- arXiv技術論文:https://arxiv.org/pdf/2412.06699
See3D的應用場景
- 游戲開發:AI生成的3D模型可以用于創建游戲中的角色、環境和對象,提高開發效率并降低成本。
- 建筑設計:在建筑設計中,AI可以生成建筑模型,幫助設計師快速構思和修改設計方案。
- 電商:在線零售可以利用AI生成的3D模型進行產品展示,提高用戶的購物體驗。
- AR/VR:在AR/VR領域,AI生成的3D模型可以用于創建逼真的虛擬環境和角色,增強用戶的沉浸感。
- 電影和娛樂:AI可以幫助電影制作人通過替換真人角色來創建CG角色,簡化特效制作流程。
- 工業設計:AI生成的3D模型可以用于模擬工業產品的設計,加速產品開發過程。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...