SynCD

SynCD – Meta和卡內基梅隆大學開源的文生圖合成訓練數據集

SynCD是什么

SynCD（Synthetic Customization Dataset）是由卡內基梅隆大學和Meta共同開發的高質量合成數據集，旨在提升文本到圖像生成模型的個性化能力。該數據集包含同一對象在不同光照、背景和姿態下的多種圖像，采用共享注意力機制（Masked Shared Attention）和3D資產引導（如Objaverse）來確保對象在不同圖像中的一致性。SynCD通過語言模型（LLM）生成豐富的對象描述和背景場景，并結合深度引導的文本到圖像生成模型，生成配對圖像。它有效解決了現實世界中多視角、多背景對象圖像難以大規模收集的問題，為無調優（tuning-free）的模型定制化提供了豐富的訓練資源，顯著提高了模型在生成新場景中特定對象時的圖像質量和身份一致性。

SynCD

SynCD的主要功能

豐富的訓練樣本提供：生成多角度和多背景下的圖像，增強模型對對象的視覺理解能力。
對象一致性增強：利用共享注意力機制和3D資產引導，確保不同圖像中對象特征的一致性，避免特征漂移。
生成質量提升：通過高質量的合成數據，改善模型在定制化任務中的圖像質量和身份保持能力。
支持無調優定制化：為無調優方法提供數據支持，消除對每個新對象進行昂貴優化步驟的需求。

SynCD的技術原理

語言模型輔助提示生成（LLM-assisted Prompt Generation）：
- 使用語言模型（如LLama3）生成詳細的對象及背景場景描述。對于剛體對象，采用Cap3D提供的描述；對于可變形對象，則直接從類別名稱生成詳細描述。
- 基于LLM生成多個背景描述，將對象描述與這些背景結合，形成多圖像的提示。
共享注意力機制（Masked Shared Attention， MSA）：
- 在生成多圖像時，利用Masked Shared Attention機制共享前景對象區域的特征，確保不同圖像中對象的一致性。
- 在擴散模型的注意力模塊中，每個圖像的特征不僅關注自身，還關注其他圖像中的對象特征，并通過掩碼忽略背景區域。
3D資產引導（3D Asset Guidance）：
- 對于剛體對象，使用Objaverse中的3D資產進行多視角渲染，生成深度圖和對應的圖像。
- 基于深度引導和多視角的對應關系，進一步增強對象的3D一致性，支持像素級的跨視角對應關系，確保對象在不同視角下形狀和顏色的一致。
數據過濾與質量控制：
- 通過美學評分（aesthetic score）和對象相似性（使用DINOv2特征空間計算）過濾低質量或不一致的圖像，確保最終數據集的高質量。
- 通過自動化的過濾步驟，剔除不符合要求的圖像，最終生成高質量的合成數據集。