Jodi

Jodi – 中國科學院推出的視覺理解與生成統一模型

Jodi

Jodi是由中國科學院計算技術研究所與中國科學院大學共同研發的先進擴散模型框架，旨在將視覺生成與理解有效結合。其獨特之處在于通過聯合建模圖像及多個標簽域，實現深度的視覺信息處理。

Jodi是什么

Jodi是一個創新的擴散模型框架，源于中國科學院計算技術研究所和中國科學院大學，旨在統一視覺生成與理解的過程。該框架依托于線性擴散Transformer和角色切換機制，能夠執行三種核心任務：聯合生成（同時生成圖像及多個標簽）、可控生成（基于標簽組合生成特定圖像），以及圖像感知（從圖像中預測多個標簽）。Jodi利用Joint-1.6M數據集進行訓練，該數據集包含20萬張高質量圖像及7個視覺域標簽。Jodi在生成和理解任務中表現出色，展現出強大的可擴展性和跨領域一致性。

Jodi的主要功能

聯合生成：能夠同時生成圖像和多種標簽，例如深度圖、法線圖和邊緣圖，確保生成的內容在語義和空間上具有一致性。
可控生成：用戶可通過特定標簽組合來生成圖像，從而控制生成結果的特定屬性或特征。
圖像感知：從給定的圖像中預測多個標簽，實現對圖像的多維度理解與分析，例如深度估計、邊緣檢測和語義分割等。

Jodi的技術原理

聯合建模：通過對圖像域及多個標簽域的聯合分布進行建模，推導出生成和理解任務所需的邊際和條件分布。
角色切換機制：在訓練過程中，每個域會被隨機指定為三種角色之一：生成目標（[G]）、條件輸入（[C]）或被忽略（[X]），使模型能夠學習不同類型的概率分布。
線性擴散Transformer：作為主干網絡的線性擴散Transformer通過線性注意力機制有效降低計算復雜度，使模型能高效處理多個視覺域，同時引入掩碼線性注意力和領域不變的位置嵌入，增強不同視覺域之間的一致性和對齊。
數據集構建：為支持多視覺域的聯合建模，Jodi開發了Joint-1.6M數據集，包含20萬張高質量圖像及對應的7個視覺域的自動標簽，提供豐富的數據支持。