Matrix3D – 南大聯(lián)合Apple、港科大推出的統(tǒng)一攝影測(cè)量模型
Matrix3D 是學(xué)、蘋果公司與香港科技大學(xué)共同研發(fā)的一種創(chuàng)新型統(tǒng)一攝影測(cè)量模型。它能夠在單一模型中執(zhí)行多種攝影測(cè)量任務(wù),如姿態(tài)估計(jì)、深度預(yù)測(cè)和新視圖合成。其核心技術(shù)為多模態(tài)擴(kuò)散變換器(DiT),通過(guò)整合圖像、相機(jī)參數(shù)和深度圖等多種數(shù)據(jù)模態(tài),實(shí)現(xiàn)靈活高效的任務(wù)處理。
Matrix3D是什么
Matrix3D 是由學(xué)、蘋果公司和香港科技大學(xué)共同推出的一款新型統(tǒng)一攝影測(cè)量模型,能夠在一個(gè)框架內(nèi)完成多項(xiàng)攝影測(cè)量子任務(wù),包括姿態(tài)估計(jì)、深度預(yù)測(cè)和新視圖合成。其核心為多模態(tài)擴(kuò)散變換器(DiT),通過(guò)結(jié)合圖像、相機(jī)參數(shù)及深度圖等多種數(shù)據(jù)模態(tài),實(shí)現(xiàn)靈活多樣的任務(wù)處理。Matrix3D的訓(xùn)練采取了掩碼學(xué)習(xí)策略,即便在數(shù)據(jù)部分缺失的情況下,也能基于雙模態(tài)數(shù)據(jù)(如圖像與姿態(tài)或圖像與深度對(duì))進(jìn)行全面的模態(tài)訓(xùn)練,從而顯著提升可用訓(xùn)練數(shù)據(jù)的量。同時(shí),Matrix3D 允許用戶進(jìn)行多輪交互,通過(guò)逐步輸入信息來(lái)優(yōu)化生成結(jié)果,展現(xiàn)出極強(qiáng)的靈活性,適用于3D內(nèi)容創(chuàng)作。
Matrix3D的主要功能
- 姿態(tài)估計(jì)(Pose Estimation):能夠從稀疏視角的圖像中精準(zhǔn)估算相機(jī)的姿態(tài),即使在圖像重疊度較低的情況下,也能準(zhǔn)確預(yù)測(cè)相機(jī)的相對(duì)位置與方向。
- 深度預(yù)測(cè)(Depth Prediction):能夠從單目或多視角圖像中生成高質(zhì)量的深度圖,支持從少量圖像中提取深度信息,為后續(xù)3D重建任務(wù)奠定基礎(chǔ)。
- 新視圖合成(Novel View Synthesis):可根據(jù)輸入圖像生成任意姿態(tài)的新視圖圖像,支持從單張或多張圖像中合成新的視角。
- 3D重建(3D Reconstruction):結(jié)合姿態(tài)估計(jì)、深度預(yù)測(cè)和新視圖合成的結(jié)果,Matrix3D能夠?qū)崿F(xiàn)基于單張或少量圖像的3D重建,并通過(guò)與3D高斯濺射優(yōu)化結(jié)合,生成高質(zhì)量的3D點(diǎn)云。
- 多任務(wù)交互與靈活性:Matrix3D支持靈活的輸入/輸出配置,能夠根據(jù)用戶提供的信息動(dòng)態(tài)調(diào)整任務(wù)。
- 掩碼學(xué)習(xí)與數(shù)據(jù)利用:通過(guò)掩碼學(xué)習(xí)策略,Matrix3D能夠處理部分完整的數(shù)據(jù)進(jìn)行訓(xùn)練,顯著擴(kuò)展可用訓(xùn)練數(shù)據(jù)的范圍,從而提升模型的泛化能力。
Matrix3D的技術(shù)原理
- 多模態(tài)擴(kuò)散變換器:Matrix3D采用擴(kuò)散變換器架構(gòu),能夠處理多種模態(tài)的數(shù)據(jù)(如 RGB 圖像、相機(jī)姿態(tài)和深度圖),并將其統(tǒng)一為二維表示,實(shí)現(xiàn)跨模態(tài)特征的融合與生成。
- 掩碼學(xué)習(xí)策略:在訓(xùn)練過(guò)程中,模型采用掩碼學(xué)習(xí),通過(guò)隨機(jī)掩碼處理輸入數(shù)據(jù),學(xué)習(xí)從帶有噪聲的數(shù)據(jù)中恢復(fù)出清晰的輸出,能夠有效處理不完整輸入數(shù)據(jù),顯著增加可用訓(xùn)練數(shù)據(jù)量。
- 統(tǒng)一的概率模型:Matrix3D 基于統(tǒng)一的概率模型,能夠根據(jù)靈活的輸入/輸出配置動(dòng)態(tài)調(diào)整任務(wù)需求,支持姿態(tài)估計(jì)、深度預(yù)測(cè)和新視圖合成等多種攝影測(cè)量任務(wù)。
- 3D 高斯濺射優(yōu)化:生成的深度圖和新視圖圖像可用于初始化3D高斯濺射(3DGS)優(yōu)化,以實(shí)現(xiàn)高質(zhì)量的3D點(diǎn)云重建。
- 數(shù)據(jù)歸一化:通過(guò)場(chǎng)景歸一化和相機(jī)歸一化技術(shù),Matrix3D能處理不同數(shù)據(jù)集的多樣化分布,確保不同模態(tài)的數(shù)據(jù)在統(tǒng)一尺度和坐標(biāo)系下進(jìn)行處理。
Matrix3D的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://nju-3dv.github.io/projects/matrix3d/
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.07685
Matrix3D的應(yīng)用場(chǎng)景
- 虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR):Matrix3D可以根據(jù)少量二維圖像生成高質(zhì)量的新視圖和深度信息,為VR和AR應(yīng)用提供豐富的3D場(chǎng)景和物體模型。
- 游戲開發(fā):Matrix3D能夠快速生成3D場(chǎng)景和物體的幾何信息,幫助游戲開發(fā)者從概念圖或少量參考圖像中迅速創(chuàng)建游戲中的3D模型。
- 影視制作:Matrix3D可用于從少量拍攝的二維圖像生成完整的3D場(chǎng)景,便于后期特效制作和虛擬攝影。
- 建筑設(shè)計(jì):Matrix3D能夠從建筑圖紙或少量照片中生成3D建筑模型,幫助設(shè)計(jì)師快速進(jìn)行設(shè)計(jì)驗(yàn)證和客戶展示。
- 虛擬試穿:Matrix3D可生成用戶身體的3D模型,便于進(jìn)行虛擬試穿服裝和配飾。