顛覆想象：UniReal如何融合視頻架構，實現圖像生成與編輯的未來之旅

全新的圖像編輯與生成范式。

原標題：UniReal登場：用視頻架構統一圖像生成與編輯，還學到真實世界動態變化規律
文章來源：機器之心
內容字數：6122字

在圖像生成與編輯領域，香港大學與Adobe聯合提出了一種名為UniReal的新方法。該方法通過將多種圖像任務統一到視頻生成框架中，利用大規模真實視頻數據學習屬性、姿態和光照等變化規律，從而實現高保真的圖像生成效果。

UniReal的目標是為各種圖像生成與編輯任務構建一個統一框架。該方法特別關注如何保持輸入和輸出圖像的一致性，同時根據控制信號建模圖像變化。通過將不同圖像視作視頻幀處理，UniReal能夠更好地捕捉多樣化的動態變化。

UniReal采用了一種創新的模型結構，將輸入圖像通過變分自編碼器（VAE）編碼為視覺token，接著由Transformer進行處理。同時，利用T5文本編碼器對輸入指令進行編碼，實現跨模態信息的高效融合。此外，UniReal引入了層級化提示設計，以整合多樣化任務和數據，提升模型的生成能力。

UniReal基于原始視頻數據構建了大規模訓練數據集。通過從視頻中提取幀并生成編輯指令，構造了多種編輯任務的數據。同時，利用圖像理解模型進行自動標注，為可控生成和圖像理解任務提供了豐富的條件信息。

UniReal在多個圖像任務中展現出強大的性能，包括圖像定制化生成、指令編輯和物體插入。實驗表明，UniReal能夠在保留細節的同時，生成具有較大姿態和場景變化的圖像，并支持用戶通過文本進行靈活編輯。此外，UniReal展現了優秀的環境理解能力，能夠自然地將插入物體融入背景。

盡管UniReal在多個任務中表現出色，但隨著輸入和輸出圖像數量的增加，訓練與推理效率問題成為關鍵挑戰。未來的研究將集中于設計更高效的注意力結構，進一步提升模型性能與實用性。

總之，UniReal作為一種全新的圖像生成與編輯范式，展示了廣泛的應用潛力和出色的泛化能力，為未來的研究和應用提供了新的方向。

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...