LLaDA-V

LLaDA-V – 人大高瓴AI聯合螞蟻推出的多模態大模型

LLaDA-V

LLaDA-V是一款由中國人民大學高瓴人工智能學院與螞蟻集團聯合開發的多模態大語言模型（MLLM），其底層架構基于純擴散模型，專注于視覺指令的微調。該模型在原有的LLaDA基礎上，集成了視覺編碼器和多層感知器連接器，能夠將視覺特征有效映射到語言嵌入空間，促進多模態的一致性和融合。

LLaDA-V是什么

LLaDA-V是由中國人民大學高瓴人工智能學院與螞蟻集團共同推出的一款多模態大語言模型（MLLM）。該模型基于純擴散模型架構，專注于視覺指令的微調。通過引入視覺編碼器和多層感知器連接器，LLaDA-V能夠將視覺特征映射到語言嵌入空間，確保多模態信息的有效對齊。LLaDA-V在多模態理解方面表現出色，超越了現有的混合自回歸-擴散和純擴散模型。

LLaDA-V的主要功能

圖像描述生成：根據輸入的圖像生成詳盡的描述文本。
視覺問答：針對圖像內容提出問題并給出答案。
多輪多模態對話：在給定圖像的背景下，進行多輪對話，理解與圖像及對話歷史相關的回答。
復雜推理任務：處理圖像和文本結合的復合任務，比如解答與圖像相關的數學或邏輯問題。

LLaDA-V的技術原理

擴散模型：擴散模型通過逐步去除噪聲生成數據。在LLaDA-V中采用掩碼擴散模型，通過在句子中隨機掩碼一些詞（用特殊標記[M]替代），訓練模型預測原始掩碼詞的內容。
視覺指令微調：該框架包括視覺塔和多層感知器連接器。視覺塔利用SigLIP 2模型將圖像轉化為視覺表示，而多層感知器連接器則將視覺表示映射到語言模型的詞嵌入空間，有效融合視覺特征與語言特征。
多階段訓練策略：初始階段，訓練多層感知器連接器以對齊視覺表示和語言嵌入；第二階段，對整個模型進行微調以理解和遵循視覺指令；第三階段，進一步提升模型的多模態推理能力，處理復雜的多模態推理任務。
雙向注意力機制：在多輪對話中，LLaDA-V采用雙向注意力機制，使模型在預測掩碼詞時能夠綜合考慮整個對話上下文，從而提升對話理解的連貫性和邏輯性。