Find3D：加州理工學(xué)院創(chuàng)新3D部件分割模型提升精確度與效率

Find3D是一款由加州理工學(xué)院推出的先進(jìn)3D部件分割模型，能夠根據(jù)任意文本查詢對對象的任意部分進(jìn)行分割。其強(qiáng)大的數(shù)據(jù)引擎自動從互聯(lián)網(wǎng)收集3D資產(chǎn)生成訓(xùn)練數(shù)據(jù)，并利用對比訓(xùn)練方法構(gòu)建出可擴(kuò)展的3D模型。Find3D在多個數(shù)據(jù)集上表現(xiàn)卓越，平均交并比（mIoU）性能較次佳方法提升三倍，能夠處理來自iPhone照片和AI生成圖像的復(fù)雜3D構(gòu)建。

Find3D是什么

Find3D是加州理工學(xué)院開發(fā)的一款技術(shù)先進(jìn)的3D部件分割模型，能夠?qū)崿F(xiàn)基于文本的任意對象分割。通過強(qiáng)大的數(shù)據(jù)引擎，該模型可以自動從網(wǎng)絡(luò)上獲取3D資產(chǎn)并生成訓(xùn)練數(shù)據(jù)，無需人為干預(yù)。Find3D在Objaverse-General、ShapeNet-Part和PartNet-E等多個數(shù)據(jù)集上展現(xiàn)出色的性能，顯著提升了模型的交并比。

Find3D的主要功能

開放世界3D部分分割：用戶只需輸入文本查詢，即可識別和分割任意物體的任何部分，打破了預(yù)定義部分集的限制。
無需人工注釋：依靠數(shù)據(jù)引擎自動生成訓(xùn)練數(shù)據(jù)，完全消除了人工注釋的需求。
高性能與泛化能力：在多個數(shù)據(jù)集上表現(xiàn)卓越，交并比（mIoU）比次佳方法高出三倍。
快速推理：相較于現(xiàn)有基線，推理速度提升6至300倍，大幅提高效率。
魯棒性：在多樣的物體姿態(tài)和查詢條件下，依然保持穩(wěn)定的分割效果。
查詢靈活性：支持各種類型的文本查詢，涵蓋不同粒度和描述風(fēng)格的部分查詢。

Find3D的技術(shù)原理

數(shù)據(jù)引擎：
- 使用2D基礎(chǔ)模型（如SAM和Gemini）來自動注釋3D對象。
- 將3D資產(chǎn)渲染為多個視圖，每個視圖均傳遞至SAM進(jìn)行分割。
- 對于SAM返回的每個掩碼，查詢Gemini以獲取相應(yīng)部分名稱，從而形成（掩碼，文本）對。
- 將部分名稱嵌入到視覺和語言基礎(chǔ)模型（如SigLIP）的潛在嵌入空間中。
- 基于投影幾何將掩碼反投影到3D點云中，創(chuàng)建（點，文本嵌入）對。
模型訓(xùn)練：
- 采用基于Transformer的點云模型，將點云視作序列并執(zhí)行塊注意力機(jī)制。
- 模型返回的點特征與文本嵌入的余弦相似度相結(jié)合，支持任意形式的文本查詢。
- 通過對比學(xué)習(xí)目標(biāo)處理標(biāo)簽的多義性和部分可見性問題，支持在數(shù)據(jù)引擎生成的數(shù)據(jù)上進(jìn)行可擴(kuò)展訓(xùn)練。
對比學(xué)習(xí)目標(biāo)：
- 解決每個點可能具有多個標(biāo)簽的問題，以及由于每個掩碼僅覆蓋部分視圖而導(dǎo)致的未標(biāo)記點問題。
- 基于對比學(xué)習(xí)目標(biāo)，使模型能夠?qū)W習(xí)到魯棒的特征表示，從而在開放世界中實現(xiàn)精確的部分分割。

Find3D的項目地址

項目官網(wǎng)：ziqi-ma.github.io/find3dsite
GitHub倉庫：https://github.com/ziqi-ma/Find3D
arXiv技術(shù)論文：https://arxiv.org/pdf/2411.13550v1
在線體驗Demo：https://huggingface.co/spaces/ziqima/Find3D

Find3D的應(yīng)用場景

機(jī)器人視覺與操作：在機(jī)器人技術(shù)中，幫助機(jī)器人識別和定位物體的特定部分，進(jìn)行精準(zhǔn)的抓取和操作。
虛擬現(xiàn)實（VR）和增強(qiáng)現(xiàn)實（AR）：在VR/AR應(yīng)用中，提升用戶與虛擬環(huán)境的互動體驗，提供更深層次的虛擬物體理解。
計算機(jī)輔助設(shè)計（CAD）：在CAD軟件中，幫助設(shè)計師快速識別和編輯3D模型的特定部分，大幅提升設(shè)計效率。
游戲開發(fā)：在游戲開發(fā)中，創(chuàng)造更復(fù)雜的3D物體互動，例如角色裝備的更換或物體破壞效果。
建筑和工程：在建筑和工程領(lǐng)域，輔助分析和理解復(fù)雜的3D結(jié)構(gòu)，如建筑模型或機(jī)械部件。