ENEL

ENEL – 上海 AI Lab 推出的無編碼器3D大型多模態模型

ENEL是什么

ENEL（Exploring the Potential of Encoder-free Architectures in 3D LMMs）是一款創新的無編碼器3D大型多模態模型（3D LMM），旨在克服傳統編碼器在3D理解任務中的局限性。通過省略3D編碼器，ENEL能夠將點云數據直接轉換為離散的點標記，并與文本標記結合，隨后輸入大型語言模型（LLM）。該模型采用兩種關鍵策略，以實現高效的語義編碼與幾何結構理解：首先，利用LLM嵌入的語義編碼策略，通過混合語義損失提取高級語義；其次，采用分層幾何聚合策略，使LLM能夠關注點云的局部細節。

ENEL的7B模型在多個3D任務中表現優異，包括3D對象分類、3D對象字幕生成和3D視覺問答（VQA）。在Objaverse基準測試中，ENEL-7B的字幕生成任務GPT分數達到50.92%，分類任務達到55.0%，在3D MM-Vet數據集的VQA任務中達到42.7%，與現有的13B模型（如ShapeLLM）不相上下。ENEL的無編碼器架構在語義編碼方面表現卓越，更好地捕捉了點云與文本之間的語義關聯性。

ENEL

ENEL的主要功能

無編碼器設計：ENEL摒棄了傳統3D編碼器，直接將點云數據通過標記嵌入模塊轉換為離散點標記，并與文本標記拼接后輸入到LLM中。這一設計有效避免了編碼器結構中常見的點云分辨率限制及語義嵌入不匹配問題。
高級語義提取：ENEL通過LLM嵌入的語義編碼策略，在預訓練階段引入混合語義損失（Hybrid Semantic Loss），從而提取點云的高級語義特征，同時保持重要的幾何結構信息。
局部幾何感知：在指令調優階段，ENEL采用分層幾何聚合策略，使LLM能夠主動感知點云的局部細節。通過聚合和傳播操作，將局部幾何信息融入LLM的早期層，進而實現對復雜3D結構的細致理解。
多任務3D理解：ENEL在多個3D任務中表現出色，包括3D對象分類、3D對象字幕生成和3D視覺問答（VQA）。其7B模型在Objaverse基準測試中達到了55.0%的分類準確率和50.92%的字幕生成GPT分數，性能與13B的ShapeLLM相當。
高效語義對齊：ENEL通過無編碼器架構實現了點云與文本模態之間的高效語義對齊，更好地捕捉兩者之間的語義關聯，為3D多模態任務提供了強大的語義基礎。

ENEL的技術原理

LLM嵌入的語義編碼（LLM-embedded Semantic Encoding）：在預訓練階段，ENEL探索不同的點云自監督損失（如掩碼建模損失、重建損失、對比損失和知識蒸餾損失），提出了混合語義損失（Hybrid Semantic Loss），將點云的高級語義信息嵌入到LLM中，替代傳統3D編碼器的功能。
分層幾何聚合（Hierarchical Geometry Aggregation）：在指令調優階段，ENEL引入分層幾何聚合策略，通過在LLM早期層內對點云進行聚合和傳播，融入歸納偏置，關注點云的局部細節。具體而言，使用最遠點采樣（FPS）和k近鄰（k-NN）算法對點云進行下采樣和聚合，逐步整合點云的細粒度語義信息。