<rt id="s2u2o"></rt>

PixelFlow

AI工具1個月前更新 AI工具集

65 0 0

PixelFlow – 港大聯合 Adobe 推出的圖像生成模型

PixelFlow 是香港大學與 Adobe 合作開發的一款先進圖像生成模型，能夠在像素空間內直接生成圖像。該模型采用高效的級聯流建模技術，能夠從低分辨率逐步提升至高分辨率，從而顯著降低計算成本。在 256×256 的 ImageNet 類別條件圖像生成任務中，PixelFlow 取得了 1.98 的 FID 分數，展現出了卓越的圖像質量與語義控制能力。

PixelFlow是什么

PixelFlow 是一款由香港大學與 Adobe 聯手推出的圖像生成模型，具備在像素空間中直接生成圖像的能力。通過高效的級聯流建模，PixelFlow 從低分辨率逐步提升至高分辨率，有效減輕了計算負擔。此外，在 256×256 ImageNet 類別條件圖像生成任務中，PixelFlow 達到了 1.98 的 FID 分數，展現出色的圖像質量和語義理解能力。它還在文本到圖像生成任務中顯示了良好的性能，可以生成與文本描述高度一致的高質量圖像。PixelFlow 的端到端可訓練特性以及高效的多尺度生成策略為下一代視覺生成模型的研究提供了新的方向。

PixelFlow的主要功能

高質量圖像生成：支持生成高分辨率和高質量的圖像。
類別條件圖像生成：根據指定的類別標簽生成對應的圖像。
文本到圖像生成：根據文本描述生成匹配的圖像，具備復雜的語義理解和視覺表現能力。

PixelFlow的技術原理

流匹配：流匹配技術基于一系列線性路徑，將先驗分布（例如標準正態分布）的樣本逐步轉換為目標數據分布的樣本。在訓練過程中，通過線性插值構造訓練樣本，訓練模型預測從中間樣本到真實數據樣本的轉換速率。
多尺度生成：采用多階段去噪過程逐步提高圖像分辨率。每個階段從較低分辨率的噪聲圖像開始，逐步去噪以提升分辨率，直到達到目標分辨率。這一方法避免了在全分辨率下進行所有去噪步驟，從而顯著降低了計算成本。
Transformer架構：
- Patchify：將輸入圖像的空間表示轉換為一維序列標記。
- RoPE（Rotary Position Embedding）：用 RoPE 取代傳統的正弦余弦位置編碼，更好地處理不同的圖像分辨率。
- 分辨率嵌入：引入額外的分辨率嵌入以區分不同的分辨率。
- 文本到圖像生成：在每個 Transformer 塊中引入交叉注意力層，將視覺特征與文本輸入進行對齊。
端到端訓練：基于統一的參數集直接在像素空間中進行訓練，無需預訓練的 VAE 或其他輔助網絡。訓練過程均勻采樣來自所有分辨率階段的訓練樣本，利用序列打包技術進行聯合訓練，提高訓練效率和模型的可擴展性。
高效的推理策略：在推理過程中，PixelFlow 從最低分辨率的高斯噪聲開始，逐步去噪并提升分辨率，直到達到目標分辨率。支持多種 ODE 求解器（如 Euler 和 Dopri5），可以根據需求選擇不同的求解器，以平衡速度與生成質量。