Matrix3D

Matrix3D – 南大聯合Apple、港科大推出的統一攝影測量模型

Matrix3D 是學、蘋果公司與香港科技大學共同研發的一種創新型統一攝影測量模型。它能夠在單一模型中執行多種攝影測量任務，如姿態估計、深度預測和新視圖合成。其核心技術為多模態擴散變換器（DiT），通過整合圖像、相機參數和深度圖等多種數據模態，實現靈活高效的任務處理。

Matrix3D是什么

Matrix3D 是由學、蘋果公司和香港科技大學共同推出的一款新型統一攝影測量模型，能夠在一個框架內完成多項攝影測量子任務，包括姿態估計、深度預測和新視圖合成。其核心為多模態擴散變換器（DiT），通過結合圖像、相機參數及深度圖等多種數據模態，實現靈活多樣的任務處理。Matrix3D的訓練采取了掩碼學習策略，即便在數據部分缺失的情況下，也能基于雙模態數據（如圖像與姿態或圖像與深度對）進行全面的模態訓練，從而顯著提升可用訓練數據的量。同時，Matrix3D 允許用戶進行多輪交互，通過逐步輸入信息來優化生成結果，展現出極強的靈活性，適用于3D內容創作。

Matrix3D

Matrix3D的主要功能

姿態估計（Pose Estimation）：能夠從稀疏視角的圖像中精準估算相機的姿態，即使在圖像重疊度較低的情況下，也能準確預測相機的相對位置與方向。
深度預測（Depth Prediction）：能夠從單目或多視角圖像中生成高質量的深度圖，支持從少量圖像中提取深度信息，為后續3D重建任務奠定基礎。
新視圖合成（Novel View Synthesis）：可根據輸入圖像生成任意姿態的新視圖圖像，支持從單張或多張圖像中合成新的視角。
3D重建（3D Reconstruction）：結合姿態估計、深度預測和新視圖合成的結果，Matrix3D能夠實現基于單張或少量圖像的3D重建，并通過與3D高斯濺射優化結合，生成高質量的3D點云。
多任務交互與靈活性：Matrix3D支持靈活的輸入/輸出配置，能夠根據用戶提供的信息動態調整任務。
掩碼學習與數據利用：通過掩碼學習策略，Matrix3D能夠處理部分完整的數據進行訓練，顯著擴展可用訓練數據的范圍，從而提升模型的泛化能力。

Matrix3D的技術原理

多模態擴散變換器：Matrix3D采用擴散變換器架構，能夠處理多種模態的數據（如 RGB 圖像、相機姿態和深度圖），并將其統一為二維表示，實現跨模態特征的融合與生成。
掩碼學習策略：在訓練過程中，模型采用掩碼學習，通過隨機掩碼處理輸入數據，學習從帶有噪聲的數據中恢復出清晰的輸出，能夠有效處理不完整輸入數據，顯著增加可用訓練數據量。
統一的概率模型：Matrix3D 基于統一的概率模型，能夠根據靈活的輸入/輸出配置動態調整任務需求，支持姿態估計、深度預測和新視圖合成等多種攝影測量任務。
3D 高斯濺射優化：生成的深度圖和新視圖圖像可用于初始化3D高斯濺射（3DGS）優化，以實現高質量的3D點云重建。
數據歸一化：通過場景歸一化和相機歸一化技術，Matrix3D能處理不同數據集的多樣化分布，確保不同模態的數據在統一尺度和坐標系下進行處理。