顛覆想象:UniReal如何融合視頻架構(gòu),實(shí)現(xiàn)圖像生成與編輯的未來(lái)之旅
全新的圖像編輯與生成范式。

原標(biāo)題:UniReal登場(chǎng):用視頻架構(gòu)統(tǒng)一圖像生成與編輯,還學(xué)到真實(shí)世界動(dòng)態(tài)變化規(guī)律
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6122字
UniReal:全新圖像生成與編輯范式
在圖像生成與編輯領(lǐng)域,香港大學(xué)與Adobe聯(lián)合提出了一種名為UniReal的新方法。該方法通過(guò)將多種圖像任務(wù)統(tǒng)一到視頻生成框架中,利用大規(guī)模真實(shí)視頻數(shù)據(jù)學(xué)習(xí)屬性、姿態(tài)和光照等變化規(guī)律,從而實(shí)現(xiàn)高保真的圖像生成效果。
1. 研究背景與目標(biāo)
UniReal的目標(biāo)是為各種圖像生成與編輯任務(wù)構(gòu)建一個(gè)統(tǒng)一框架。該方法特別關(guān)注如何保持輸入和輸出圖像的一致性,同時(shí)根據(jù)控制信號(hào)建模圖像變化。通過(guò)將不同圖像視作視頻幀處理,UniReal能夠更好地捕捉多樣化的動(dòng)態(tài)變化。
2. 方法概述
UniReal采用了一種創(chuàng)新的模型結(jié)構(gòu),將輸入圖像通過(guò)變分自編碼器(VAE)編碼為視覺(jué)token,接著由Transformer進(jìn)行處理。同時(shí),利用T5文本編碼器對(duì)輸入指令進(jìn)行編碼,實(shí)現(xiàn)跨模態(tài)信息的高效融合。此外,UniReal引入了層級(jí)化提示設(shè)計(jì),以整合多樣化任務(wù)和數(shù)據(jù),提升模型的生成能力。
3. 數(shù)據(jù)構(gòu)造
UniReal基于原始視頻數(shù)據(jù)構(gòu)建了大規(guī)模訓(xùn)練數(shù)據(jù)集。通過(guò)從視頻中提取幀并生成編輯指令,構(gòu)造了多種編輯任務(wù)的數(shù)據(jù)。同時(shí),利用圖像理解模型進(jìn)行自動(dòng)標(biāo)注,為可控生成和圖像理解任務(wù)提供了豐富的條件信息。
4. 主要功能與效果展示
UniReal在多個(gè)圖像任務(wù)中展現(xiàn)出強(qiáng)大的性能,包括圖像定制化生成、指令編輯和物體插入。實(shí)驗(yàn)表明,UniReal能夠在保留細(xì)節(jié)的同時(shí),生成具有較大姿態(tài)和場(chǎng)景變化的圖像,并支持用戶通過(guò)文本進(jìn)行靈活編輯。此外,UniReal展現(xiàn)了優(yōu)秀的環(huán)境理解能力,能夠自然地將插入物體融入背景。
5. 未來(lái)展望
盡管UniReal在多個(gè)任務(wù)中表現(xiàn)出色,但隨著輸入和輸出圖像數(shù)量的增加,訓(xùn)練與推理效率問(wèn)題成為關(guān)鍵挑戰(zhàn)。未來(lái)的研究將集中于設(shè)計(jì)更高效的注意力結(jié)構(gòu),進(jìn)一步提升模型性能與實(shí)用性。
總之,UniReal作為一種全新的圖像生成與編輯范式,展示了廣泛的應(yīng)用潛力和出色的泛化能力,為未來(lái)的研究和應(yīng)用提供了新的方向。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)