DoraCycle

DoraCycle – 新加坡國立大學推出多模態領域適應的統一生成模型

DoraCycle是什么

DoraCycle 是由新加坡國立大學 Show Lab 開發的一款多模態領域適應統一生成模型。該模型通過兩個多模態循環（文本到圖像再到文本和圖像到文本再到圖像）實現了不同模態之間的信息轉換和對齊。DoraCycle 利用統一生成模型進行雙向映射學習，能夠在沒有大量標注數據的情況下，使用非配對數據進行領域適配訓練。模型通過循環端點的交叉熵損失進行優化，從而促進自我進化以適應特定領域。

DoraCycle

DoraCycle的主要功能

無配對數據的領域適應：DoraCycle 首次實現了基于無配對數據的生成模型領域適應，通過循環一致性學習顯著降低了數據獲取成本。
靈活的任務適應性：該模型能夠處理無需成對知識的任務（例如風格化），并能有效結合少量配對數據以完成需要新知識的任務（如身份生成）。

DoraCycle的技術原理

多模態循環一致性學習：DoraCycle 集成了兩個多模態循環：文本到圖像再到文本（T cycle）和圖像到文本再到圖像（I cycle）。這兩個循環依賴于預訓練的統一生成模型（如視覺-語言對齊模型）進行跨模態映射。
- T cycle：模型首先接收輸入文本序列，將其轉換為圖像表示，然后將生成的圖像轉換回文本序列，通過計算生成文本與原始文本之間的交叉熵損失來優化模型。
- I cycle：模型從輸入圖像開始，首先將其轉換為文本描述，再將文本描述轉換回圖像，同樣通過計算生成圖像與原始圖像之間的交叉熵損失來優化模型。
跨模態對齊的自監督學習：DoraCycle 通過雙向映射學習實現視覺和語言之間的跨模態對齊。借助這兩個循環，數據在同一模態內得以保持，同時施加對過程中引入的偏差的約束，從而通過自監督學習優化模型。
訓練穩定性增強：在多步推理過程中，為了防止梯度，DoraCycle 采用了以下技術：
- 梯度裁剪：避免兩個循環的優化方向發生沖突，從而提高訓練的穩定性。
- EMA 模型：維護一個緩慢更新的指數移動平均（EMA）模型，用于推理，以生成偽數據，增強偽數據生成的穩定性。