ENEL – 上海 AI Lab 推出的無編碼器3D大型多模態模型
ENEL是什么
ENEL(Exploring the Potential of Encoder-free Architectures in 3D LMMs)是一款創新的無編碼器3D大型多模態模型(3D LMM),旨在克服傳統編碼器在3D理解任務中的局限性。通過省略3D編碼器,ENEL能夠將點云數據直接轉換為離散的點標記,并與文本標記結合,隨后輸入大型語言模型(LLM)。該模型采用兩種關鍵策略,以實現高效的語義編碼與幾何結構理解:首先,利用LLM嵌入的語義編碼策略,通過混合語義損失提取高級語義;其次,采用分層幾何聚合策略,使LLM能夠關注點云的局部細節。
ENEL的7B模型在多個3D任務中表現優異,包括3D對象分類、3D對象字幕生成和3D視覺問答(VQA)。在Objaverse基準測試中,ENEL-7B的字幕生成任務GPT分數達到50.92%,分類任務達到55.0%,在3D MM-Vet數據集的VQA任務中達到42.7%,與現有的13B模型(如ShapeLLM)不相上下。ENEL的無編碼器架構在語義編碼方面表現卓越,更好地捕捉了點云與文本之間的語義關聯性。
ENEL的主要功能
- 無編碼器設計:ENEL摒棄了傳統3D編碼器,直接將點云數據通過標記嵌入模塊轉換為離散點標記,并與文本標記拼接后輸入到LLM中。這一設計有效避免了編碼器結構中常見的點云分辨率限制及語義嵌入不匹配問題。
- 高級語義提取:ENEL通過LLM嵌入的語義編碼策略,在預訓練階段引入混合語義損失(Hybrid Semantic Loss),從而提取點云的高級語義特征,同時保持重要的幾何結構信息。
- 局部幾何感知:在指令調優階段,ENEL采用分層幾何聚合策略,使LLM能夠主動感知點云的局部細節。通過聚合和傳播操作,將局部幾何信息融入LLM的早期層,進而實現對復雜3D結構的細致理解。
- 多任務3D理解:ENEL在多個3D任務中表現出色,包括3D對象分類、3D對象字幕生成和3D視覺問答(VQA)。其7B模型在Objaverse基準測試中達到了55.0%的分類準確率和50.92%的字幕生成GPT分數,性能與13B的ShapeLLM相當。
- 高效語義對齊:ENEL通過無編碼器架構實現了點云與文本模態之間的高效語義對齊,更好地捕捉兩者之間的語義關聯,為3D多模態任務提供了強大的語義基礎。
ENEL的技術原理
- LLM嵌入的語義編碼(LLM-embedded Semantic Encoding):在預訓練階段,ENEL探索不同的點云自監督損失(如掩碼建模損失、重建損失、對比損失和知識蒸餾損失),提出了混合語義損失(Hybrid Semantic Loss),將點云的高級語義信息嵌入到LLM中,替代傳統3D編碼器的功能。
- 分層幾何聚合(Hierarchical Geometry Aggregation):在指令調優階段,ENEL引入分層幾何聚合策略,通過在LLM早期層內對點云進行聚合和傳播,融入歸納偏置,關注點云的局部細節。具體而言,使用最遠點采樣(FPS)和k近鄰(k-NN)算法對點云進行下采樣和聚合,逐步整合點云的細粒度語義信息。
ENEL的項目地址
- GitHub倉庫:https://github.com/Ivan-Tang-3D/ENEL
- arXiv技術論文:https://arxiv.org/pdf/2502.09620
ENEL的應用場景
- 3D對象分類:ENEL能夠高效地對3D對象進行分類,適用于工業自動化、機器人視覺和自動駕駛等領域,快速識別和分類復雜的3D物體。
- 3D對象字幕生成:可生成對3D模型的描述性文本,幫助用戶迅速理解3D場景中的關鍵信息,適用于虛擬現實(VR)、增強現實(AR)及3D建模工具。
- 3D視覺問答(VQA):能夠回答與3D場景相關的問題,例如在醫學影像分析、建筑設計和教育領域中,幫助用戶快速獲取3D數據中的關鍵信息。
- 復雜3D幾何結構理解:適用于需要精確理解復雜幾何形狀的領域,如航空航天、汽車制造和珠寶設計,幫助工程師和設計師更好地理解及優化3D模型。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...