UNO – 字節(jié)跳動推出的創(chuàng)新AI圖像生成框架

UNO概述
UNO是字節(jié)跳動推出的一款創(chuàng)新型AI圖像生成框架,旨在克服傳統(tǒng)模型在生成多主體圖像時所面臨的限制。通過獨特的“少到多”泛化策略,UNO能夠高效地生成單一主體與多個主體的高質(zhì)量圖像,成功解決了在多主體場景中保持一致性的問題。該框架以擴(kuò)散變換器為基礎(chǔ),生成具有高一致性的多主體數(shù)據(jù),并采用漸進(jìn)式跨模態(tài)對齊技術(shù),通過分階段的模型訓(xùn)練逐步提升生成效果。此外,UNO引入了通用旋轉(zhuǎn)位置嵌入(UnoPE),支持生成多種分辨率和長寬比的圖像。
UNO的主要功能
- 單主體定制生成:UNO能夠根據(jù)提供的參考圖像生成在不同場景、姿勢或風(fēng)格中保持相同主體特征的圖像。
- 多主體組合生成:用戶可以輸入多個參考圖像,UNO將生成一幅包含所有參考主體的新圖像。
- 虛擬試穿與產(chǎn)品展示:UNO支持虛擬試穿功能,能夠?qū)⑻囟óa(chǎn)品(如服裝、飾品等)應(yīng)用于各種人物模型,展示其實際效果,同時保持產(chǎn)品的原始特性。
- 風(fēng)格化生成:UNO具備風(fēng)格轉(zhuǎn)換能力,可以為參考主體生成不同風(fēng)格的圖像。
- 強(qiáng)大的泛化能力:UNO在多個任務(wù)中展現(xiàn)出卓越的泛化能力,能適用于多種應(yīng)用場景,包括單主體和多主體驅(qū)動的圖像生成,涵蓋id、tryon、style等領(lǐng)域。
UNO的技術(shù)原理
- 高一致性數(shù)據(jù)合成管道:UNO利用擴(kuò)散變換器的內(nèi)在上下文生成特性,合成高一致性的多主體配對數(shù)據(jù),從而自動創(chuàng)建大規(guī)模、高質(zhì)量的訓(xùn)練數(shù)據(jù),解決了數(shù)據(jù)獲取的難題。
- 漸進(jìn)式跨模態(tài)對齊:UNO的訓(xùn)練過程分為兩個階段:
- 第一階段:使用單主體上下文生成的數(shù)據(jù)對預(yù)訓(xùn)練的文本到圖像(T2I)模型進(jìn)行微調(diào),使其具備處理單主體生成任務(wù)的能力。
- 第二階段:引入多主體數(shù)據(jù)繼續(xù)訓(xùn)練,增強(qiáng)模型處理復(fù)雜場景的能力。這種逐步對齊的方式使模型更好地適應(yīng)從單主體到多主體的生成任務(wù)。
- 通用旋轉(zhuǎn)位置嵌入(UnoPE):UNO通過引入通用旋轉(zhuǎn)位置嵌入(UnoPE),有效解決了擴(kuò)展視覺主體控制時的屬性混淆問題。UnoPE為文本和圖像標(biāo)記分配特定位置索引,調(diào)控多模態(tài)標(biāo)記之間的交互,幫助模型專注于從文本特征中提取布局信息,同時保持良好的文本可控性和主體相似性。
- 模型架構(gòu):UNO基于開源模型FLUX.1 dev,繼承其文生圖基礎(chǔ)能力和多模態(tài)注意力機(jī)制,采用通用定制化模型框架,支持從文本到圖像的迭代訓(xùn)練,通過獨特的漸進(jìn)式跨模態(tài)對齊和通用旋轉(zhuǎn)位置嵌入等機(jī)制,實現(xiàn)單主體和多主體生成中的高一致性和可控性。
- 數(shù)據(jù)管理與模型進(jìn)化:UNO采用“模型-數(shù)據(jù)共同進(jìn)化”的新范式,以較弱的模型生成訓(xùn)練數(shù)據(jù),從而訓(xùn)練出更強(qiáng)的模型,使模型在訓(xùn)練過程中逐步適應(yīng)多樣化場景,能夠有效應(yīng)對實際應(yīng)用中可能遇到的復(fù)雜情況。
UNO的項目地址
- 項目官網(wǎng):https://bytedance.github.io/UNO/
- Github倉庫:https://github.com/bytedance/UNO
- HuggingFace模型:https://huggingface.co/bytedance-research/UNO
- arXiv技術(shù)論文:https://arxiv.org/pdf/2504.02160
UNO的應(yīng)用場景
- 虛擬試穿:UNO能夠?qū)⒉煌姆b、飾品等產(chǎn)品展示在虛擬人物模型上,生成多種場景下的試穿效果。
- 產(chǎn)品設(shè)計:在產(chǎn)品設(shè)計過程中,UNO可以將產(chǎn)品置于各種背景和場景中,保持其原始特性,幫助設(shè)計師激發(fā)靈感。
- 創(chuàng)意設(shè)計:UNO支持接收多個參考圖像生成包含所有主體的新圖像,適合用于創(chuàng)意設(shè)計。
- 個性化內(nèi)容生成:UNO能夠根據(jù)參考圖像生成在不同場景、姿勢或風(fēng)格中保持同一主體特征的圖像。
- 角色和場景設(shè)計:UNO為游戲開發(fā)提供強(qiáng)大的圖像生成支持,能夠幫助開發(fā)者快速創(chuàng)建角色和場景,激發(fā)創(chuàng)意靈感。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號