Inf-DiT

Inf-DiT – 清華聯合智譜 AI 推出的超高分辨率圖像生成模型

什么是Inf-DiT

Inf-DiT是由清華大學和智譜AI聯合開發的一種基于擴散模型的圖像上采樣方法，旨在生成超高分辨率圖像。該方法創新性地引入了單向塊注意力機制（UniBA），將生成過程中的空間復雜度從O(N^2)降低到O(N)，有效解決了傳統擴散模型在處理大尺寸圖像時所面臨的內存消耗問題。Inf-DiT利用擴散變換器（DiT）框架，能夠靈活應對各種形狀和分辨率的圖像上采樣任務，并通過多種技術手段提升生成圖像的局部和全局一致性。實驗結果顯示，Inf-DiT在超高分辨率圖像生成和超分辨率任務中均達到了領先的性能。

Inf-DiT

Inf-DiT的主要功能

生成超高分辨率圖像：Inf-DiT能夠生成高分辨率圖像，突破了傳統擴散模型在高分辨率圖像生成過程中的內存限制，適用于需要細致細節和豐富紋理的復雜設計、廣告、海報及壁紙等應用場景。
靈活的圖像上采樣：該方法支持各種形狀和分辨率的圖像上采樣任務，為不同需求的圖像質量提升提供強大的技術支持。
增強局部和全局一致性：Inf-DiT通過全局圖像嵌入和鄰近低分辨率塊的交叉注意力機制，有效增強生成圖像的局部和全局一致性，確保生成的圖像在細節和整體結構上均符合預期。
零樣本文本控制能力：具備零樣本文本控制功能，能根據用戶提供的文本提示引導和調整生成的圖像，提升生成圖像的多樣性與可控性。

Inf-DiT的技術原理

單向塊注意力機制（UniBA）：該機制將圖像分割成多個塊，在每個擴散步驟中順序生成這些塊，每個批次同時生成部分塊，并可根據內存允許并行生成任意數量的塊，極大降低了生成過程的空間復雜度。
擴散變換器（DiT）結構：Inf-DiT采用擴散變換器結構，結合了Vision Transformer（ViT）的優勢，以注意力機制作為圖像塊之間交互的主要方式，提升了模型的性能和擴展性。
全局圖像嵌入：為了增強生成圖像的全局語義一致性，Inf-DiT通過預訓練的CLIP模型從低分辨率圖像中提取全局圖像嵌入，并將其融入到擴散變換器的時間嵌入中，讓模型能更好地利用高層語義信息。
鄰近低分辨率塊的交叉注意力機制：在生成高分辨率圖像時，為了減少圖像不連續的情況，Inf-DiT在變換器的第一層引入了鄰近低分辨率塊的交叉注意力機制，使每個塊能夠關注周圍的3×3低分辨率塊，提升局部一致性。