DoraCycle – 新加坡國立大學推出多模態領域適應的統一生成模型
DoraCycle是什么
DoraCycle 是由新加坡國立大學 Show Lab 開發的一款多模態領域適應統一生成模型。該模型通過兩個多模態循環(文本到圖像再到文本和圖像到文本再到圖像)實現了不同模態之間的信息轉換和對齊。DoraCycle 利用統一生成模型進行雙向映射學習,能夠在沒有大量標注數據的情況下,使用非配對數據進行領域適配訓練。模型通過循環端點的交叉熵損失進行優化,從而促進自我進化以適應特定領域。
DoraCycle的主要功能
- 無配對數據的領域適應:DoraCycle 首次實現了基于無配對數據的生成模型領域適應,通過循環一致性學習顯著降低了數據獲取成本。
- 靈活的任務適應性:該模型能夠處理無需成對知識的任務(例如風格化),并能有效結合少量配對數據以完成需要新知識的任務(如身份生成)。
DoraCycle的技術原理
- 多模態循環一致性學習:DoraCycle 集成了兩個多模態循環:文本到圖像再到文本(T cycle)和圖像到文本再到圖像(I cycle)。這兩個循環依賴于預訓練的統一生成模型(如視覺-語言對齊模型)進行跨模態映射。
- T cycle:模型首先接收輸入文本序列,將其轉換為圖像表示,然后將生成的圖像轉換回文本序列,通過計算生成文本與原始文本之間的交叉熵損失來優化模型。
- I cycle:模型從輸入圖像開始,首先將其轉換為文本描述,再將文本描述轉換回圖像,同樣通過計算生成圖像與原始圖像之間的交叉熵損失來優化模型。
- 跨模態對齊的自監督學習:DoraCycle 通過雙向映射學習實現視覺和語言之間的跨模態對齊。借助這兩個循環,數據在同一模態內得以保持,同時施加對過程中引入的偏差的約束,從而通過自監督學習優化模型。
- 訓練穩定性增強:在多步推理過程中,為了防止梯度,DoraCycle 采用了以下技術:
- 梯度裁剪:避免兩個循環的優化方向發生沖突,從而提高訓練的穩定性。
- EMA 模型:維護一個緩慢更新的指數移動平均(EMA)模型,用于推理,以生成偽數據,增強偽數據生成的穩定性。
DoraCycle的項目地址
- Github倉庫:https://github.com/showlab/DoraCycle
- arXiv技術論文:https://arxiv.org/pdf/2503.03651
DoraCycle的應用場景
- 風格化設計:DoraCycle 可用于生成符合特定風格的圖像和文本內容。
- 虛擬角色生成:在虛擬角色設計中,DoraCycle 能夠結合少量配對數據與大規模無配對數據,生成具有特定身份和風格的虛擬角色。
- 個性化廣告內容:DoraCycle 可以根據品牌風格和目標受眾生成個性化的廣告圖像和文案。
- 個性化學習材料:DoraCycle 可以根據學生的學習風格和偏好生成個性化的學習材料。
常見問題
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...