顛覆視覺藝術:UniReal如何融合圖像生成與編輯,捕捉真實世界的動態(tài)變化
全新的圖像編輯與生成范式。
原標題:UniReal登場:用視頻架構統(tǒng)一圖像生成與編輯,還學到真實世界動態(tài)變化規(guī)律
文章來源:機器之心
內容字數:6122字
UniReal: 一種全新的圖像生成與編輯范式
本文介紹了香港大學與Adobe聯(lián)合提出的UniReal,一個創(chuàng)新的圖像編輯與生成框架。該方法通過將多種圖像任務轉換為視頻生成任務,利用大規(guī)模真實視頻數據學習多種變化規(guī)律,從而實現(xiàn)高保真的生成效果。
1. 研究背景與目標
UniReal旨在統(tǒng)一圖像生成與編輯任務,滿足不同輸入輸出圖像的多樣性需求。視頻生成任務的特點與圖像編輯的核心需求相契合,使得UniReal能夠有效建模圖像變化,提升生成質量。
2. 方法概述
UniReal借鑒了Sora視頻生成架構,將不同的圖像任務視為視頻幀處理。通過VAE編碼和Transformer處理,模型能夠高效融合視覺和文本信息,實現(xiàn)跨模態(tài)理解。此外,層級化提示設計(Hierarchical Prompt)幫助模型更好地整合不同任務的數據,提高生成和編輯能力。
3. 數據構造策略
UniReal基于原始視頻數據構建大規(guī)模訓練集,采用多層次的數據構造策略,包括編輯數據生成、多目標定制化生成及可控生成與圖像理解標注。這些策略確保模型能夠學習真實世界中的動態(tài)變化,從而支持復雜的生成與理解任務。
4. 實驗效果與對比
在多個實驗中,UniReal展現(xiàn)了卓越的性能,尤其是在指令編輯、定制化生成和物體插入任務中。與現(xiàn)有方法相比,UniReal能更好地保持背景一致性、準確模擬物體狀態(tài),并生成高質量的結果。
5. 未來展望
盡管UniReal在多個任務中展現(xiàn)出強大潛力,但訓練與推理效率仍是未來需要解決的挑戰(zhàn)。研究團隊計劃探索更高效的注意力結構,以提升處理速度和降低計算成本,進一步推動模型在視頻生成與編輯任務中的應用。
綜上所述,UniReal通過創(chuàng)新的框架和數據構造策略,為圖像生成與編輯領域帶來了新的可能性,展現(xiàn)出良好的泛化能力和應用前景。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產業(yè)服務平臺