PixelFlow – 港大聯(lián)合 Adobe 推出的圖像生成模型

PixelFlow 是香港大學(xué)與 Adobe 合作開發(fā)的一款先進(jìn)圖像生成模型,能夠在像素空間內(nèi)直接生成圖像。該模型采用高效的級聯(lián)流建模技術(shù),能夠從低分辨率逐步提升至高分辨率,從而顯著降低計算成本。在 256×256 的 ImageNet 類別條件圖像生成任務(wù)中,PixelFlow 取得了 1.98 的 FID 分?jǐn)?shù),展現(xiàn)出了卓越的圖像質(zhì)量與語義控制能力。
PixelFlow是什么
PixelFlow 是一款由香港大學(xué)與 Adobe 聯(lián)手推出的圖像生成模型,具備在像素空間中直接生成圖像的能力。通過高效的級聯(lián)流建模,PixelFlow 從低分辨率逐步提升至高分辨率,有效減輕了計算負(fù)擔(dān)。此外,在 256×256 ImageNet 類別條件圖像生成任務(wù)中,PixelFlow 達(dá)到了 1.98 的 FID 分?jǐn)?shù),展現(xiàn)出色的圖像質(zhì)量和語義理解能力。它還在文本到圖像生成任務(wù)中顯示了良好的性能,可以生成與文本描述高度一致的高質(zhì)量圖像。PixelFlow 的端到端可訓(xùn)練特性以及高效的多尺度生成策略為下一代視覺生成模型的研究提供了新的方向。
PixelFlow的主要功能
- 高質(zhì)量圖像生成:支持生成高分辨率和高質(zhì)量的圖像。
- 類別條件圖像生成:根據(jù)指定的類別標(biāo)簽生成對應(yīng)的圖像。
- 文本到圖像生成:根據(jù)文本描述生成匹配的圖像,具備復(fù)雜的語義理解和視覺表現(xiàn)能力。
PixelFlow的技術(shù)原理
- 流匹配:流匹配技術(shù)基于一系列線性路徑,將先驗分布(例如標(biāo)準(zhǔn)正態(tài)分布)的樣本逐步轉(zhuǎn)換為目標(biāo)數(shù)據(jù)分布的樣本。在訓(xùn)練過程中,通過線性插值構(gòu)造訓(xùn)練樣本,訓(xùn)練模型預(yù)測從中間樣本到真實數(shù)據(jù)樣本的轉(zhuǎn)換速率。
- 多尺度生成:采用多階段去噪過程逐步提高圖像分辨率。每個階段從較低分辨率的噪聲圖像開始,逐步去噪以提升分辨率,直到達(dá)到目標(biāo)分辨率。這一方法避免了在全分辨率下進(jìn)行所有去噪步驟,從而顯著降低了計算成本。
- Transformer架構(gòu):
- Patchify:將輸入圖像的空間表示轉(zhuǎn)換為一維序列標(biāo)記。
- RoPE(Rotary Position Embedding):用 RoPE 取代傳統(tǒng)的正弦余弦位置編碼,更好地處理不同的圖像分辨率。
- 分辨率嵌入:引入額外的分辨率嵌入以區(qū)分不同的分辨率。
- 文本到圖像生成:在每個 Transformer 塊中引入交叉注意力層,將視覺特征與文本輸入進(jìn)行對齊。
- 端到端訓(xùn)練:基于統(tǒng)一的參數(shù)集直接在像素空間中進(jìn)行訓(xùn)練,無需預(yù)訓(xùn)練的 VAE 或其他輔助網(wǎng)絡(luò)。訓(xùn)練過程均勻采樣來自所有分辨率階段的訓(xùn)練樣本,利用序列打包技術(shù)進(jìn)行聯(lián)合訓(xùn)練,提高訓(xùn)練效率和模型的可擴(kuò)展性。
- 高效的推理策略:在推理過程中,PixelFlow 從最低分辨率的高斯噪聲開始,逐步去噪并提升分辨率,直到達(dá)到目標(biāo)分辨率。支持多種 ODE 求解器(如 Euler 和 Dopri5),可以根據(jù)需求選擇不同的求解器,以平衡速度與生成質(zhì)量。
PixelFlow的項目地址
- GitHub倉庫:https://github.com/ShoufaChen/PixelFlow
- arXiv技術(shù)論文:https://arxiv.org/pdf/2504.07963
- 在線體驗Demo:https://huggingface.co/spaces/ShoufaChen/PixelFlow
PixelFlow的應(yīng)用場景
- 藝術(shù)與設(shè)計:用于生成創(chuàng)意繪畫、平面設(shè)計元素和虛擬角色。
- 內(nèi)容創(chuàng)作:輔助視頻制作、游戲開發(fā)和社交媒體內(nèi)容的創(chuàng)作。
- 教育與研究:作為教學(xué)工具,幫助理解復(fù)雜概念,并輔助科研可視化。
- 商業(yè)與營銷:生成產(chǎn)品設(shè)計原型、廣告圖像和品牌推廣內(nèi)容。
- 娛樂與互動:應(yīng)用于互動故事、VR/AR 內(nèi)容生成和個性化圖像定制。
常見問題
- PixelFlow的使用門檻高嗎?:PixelFlow 提供了用戶友好的接口,任何具備基本計算機(jī)操作能力的用戶都可以輕松使用。
- 生成的圖像質(zhì)量如何?:PixelFlow 在多項標(biāo)準(zhǔn)測試中表現(xiàn)優(yōu)異,生成的圖像質(zhì)量高,且與輸入文本高度一致。
- 我可以將生成的圖像用于商業(yè)用途嗎?:具體的使用條款請參考項目的相關(guān)文檔和許可協(xié)議。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號