全新的圖像編輯與生成范式。
原標題:UniReal登場:用視頻架構統一圖像生成與編輯,還學到真實世界動態變化規律
文章來源:機器之心
內容字數:6122字
UniReal:全新圖像生成與編輯范式
在圖像生成與編輯領域,香港大學與Adobe聯合提出了一種名為UniReal的新方法。該方法通過將多種圖像任務統一到視頻生成框架中,利用大規模真實視頻數據學習屬性、姿態和光照等變化規律,從而實現高保真的圖像生成效果。
1. 研究背景與目標
UniReal的目標是為各種圖像生成與編輯任務構建一個統一框架。該方法特別關注如何保持輸入和輸出圖像的一致性,同時根據控制信號建模圖像變化。通過將不同圖像視作視頻幀處理,UniReal能夠更好地捕捉多樣化的動態變化。
2. 方法概述
UniReal采用了一種創新的模型結構,將輸入圖像通過變分自編碼器(VAE)編碼為視覺token,接著由Transformer進行處理。同時,利用T5文本編碼器對輸入指令進行編碼,實現跨模態信息的高效融合。此外,UniReal引入了層級化提示設計,以整合多樣化任務和數據,提升模型的生成能力。
3. 數據構造
UniReal基于原始視頻數據構建了大規模訓練數據集。通過從視頻中提取幀并生成編輯指令,構造了多種編輯任務的數據。同時,利用圖像理解模型進行自動標注,為可控生成和圖像理解任務提供了豐富的條件信息。
4. 主要功能與效果展示
UniReal在多個圖像任務中展現出強大的性能,包括圖像定制化生成、指令編輯和物體插入。實驗表明,UniReal能夠在保留細節的同時,生成具有較大姿態和場景變化的圖像,并支持用戶通過文本進行靈活編輯。此外,UniReal展現了優秀的環境理解能力,能夠自然地將插入物體融入背景。
5. 未來展望
盡管UniReal在多個任務中表現出色,但隨著輸入和輸出圖像數量的增加,訓練與推理效率問題成為關鍵挑戰。未來的研究將集中于設計更高效的注意力結構,進一步提升模型性能與實用性。
總之,UniReal作為一種全新的圖像生成與編輯范式,展示了廣泛的應用潛力和出色的泛化能力,為未來的研究和應用提供了新的方向。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺