EliGen – 浙大聯(lián)合阿里推出的新型實(shí)體級(jí)可控圖像生成框架
EliGen是一款由浙江大學(xué)與阿里巴巴集團(tuán)共同研發(fā)的創(chuàng)新型實(shí)體級(jí)可控圖像生成框架。它通過引入?yún)^(qū)域注意力機(jī)制,能夠?qū)?shí)體提示與任意形狀的空間掩碼無縫集成到擴(kuò)散變換器中,且無需額外參數(shù)。此外,EliGen還包含一個(gè)包含50萬高質(zhì)量注釋樣本的數(shù)據(jù)集,旨在訓(xùn)練出具有高魯棒性和準(zhǔn)確性的圖像生成模型。
EliGen是什么
EliGen是浙江大學(xué)與阿里巴巴集團(tuán)聯(lián)合開發(fā)的一種新型實(shí)體級(jí)可控圖像生成框架。該框架通過引入?yún)^(qū)域注意力機(jī)制,能夠在不增加額外參數(shù)的情況下,將實(shí)體提示與任意形狀的空間掩碼無縫集成到擴(kuò)散變換器中。EliGen涵蓋了50萬高質(zhì)量注釋樣本的數(shù)據(jù)集,旨在訓(xùn)練出魯棒且精確的實(shí)體級(jí)操控能力。此外,EliGen還提出了修復(fù)融合管道,能夠擴(kuò)展至多實(shí)體圖像修復(fù)任務(wù)。
EliGen的主要功能
- 實(shí)體級(jí)精確控制:EliGen利用區(qū)域注意力機(jī)制,能夠?qū)D像中的每個(gè)實(shí)體進(jìn)行精準(zhǔn)的控制,包括其位置、形狀和語義屬性。
- 多實(shí)體圖像修復(fù):EliGen采用了修復(fù)融合管道,使其能夠在單次前向傳遞中對(duì)多個(gè)實(shí)體進(jìn)行修復(fù),極大提升了多實(shí)體圖像修復(fù)的效率。
- 風(fēng)格化實(shí)體控制:結(jié)合IP-Adapter,EliGen能夠根據(jù)參考圖像的風(fēng)格生成目標(biāo)圖像,實(shí)現(xiàn)個(gè)性化的風(fēng)格化實(shí)體控制。
- 交互式圖像設(shè)計(jì)與編輯:通過與多模態(tài)語言模型(MLLM)的集成,EliGen能夠基于用戶的對(duì)話進(jìn)行圖像設(shè)計(jì)與編輯,用戶可以通過文本描述生成或修改圖像。
- 與社區(qū)模型集成:EliGen支持與開源模型如IP-Adapter、In-Context LoRA和MLLM無縫集成,拓展了創(chuàng)意的可能性,包括風(fēng)格化實(shí)體控制、實(shí)體轉(zhuǎn)移及基于對(duì)話的圖像設(shè)計(jì)與編輯。
- 強(qiáng)大的泛化能力:EliGen在不同隨機(jī)種子、變化的實(shí)置以及不合理的位置輸入下,依然能夠保持良好的泛化能力,生成高質(zhì)量且符合要求的圖像。
EliGen的技術(shù)原理
- 區(qū)域注意力機(jī)制:EliGen引入的區(qū)域注意力機(jī)制擴(kuò)展了擴(kuò)散變換器(DiT)的注意力模塊,能夠處理各種形狀的實(shí)體掩碼。通過結(jié)合全局提示與局部提示,形成擴(kuò)展提示序列,并基于空間條件構(gòu)建聯(lián)合注意力掩碼(包括實(shí)體間和實(shí)體內(nèi)掩碼),無需額外參數(shù)便可實(shí)現(xiàn)實(shí)體細(xì)節(jié)的調(diào)整。
- 高質(zhì)量數(shù)據(jù)集構(gòu)建:為了訓(xùn)練EliGen,研究團(tuán)隊(duì)構(gòu)建了包含50萬個(gè)高質(zhì)量注釋樣本的數(shù)據(jù)集。這些樣本通過Flux生成圖像,并基于Qwen2-VL視覺語言模型進(jìn)行全面的提示與實(shí)體信息標(biāo)注,確保模型在實(shí)體級(jí)操控中的魯棒性與準(zhǔn)確性。
- 訓(xùn)練與微調(diào):EliGen采用低秩適應(yīng)(LoRA)方法進(jìn)行高效微調(diào),確保模型快速收斂。LoRA權(quán)重應(yīng)用于DiT的每個(gè)塊的線性層,包括注意力層的投影層和自適應(yīng)LayerNorm內(nèi)的線性層。
- 修復(fù)融合管道:EliGen提出的修復(fù)融合管道專門用于多實(shí)體圖像修復(fù)任務(wù),基于區(qū)域的噪聲融合操作使其能夠在一次前向傳遞中修復(fù)多個(gè)實(shí)體,同時(shí)保持非修復(fù)區(qū)域的圖像質(zhì)量。
EliGen的項(xiàng)目地址
- arXiv技術(shù)論文:https://arxiv.org/pdf/2501.01097
EliGen的應(yīng)用場景
- 虛擬場景生成:EliGen能夠生成高質(zhì)量的虛擬場景,支持任意形狀掩碼的實(shí)體控制,適合用于虛擬現(xiàn)實(shí)和游戲開發(fā)中的場景設(shè)計(jì)。
- 角色與道具設(shè)計(jì):用戶可以精準(zhǔn)控制角色和道具的形狀、位置和風(fēng)格,為虛擬世界中的角色和道具設(shè)計(jì)提供強(qiáng)大支持。
- 大規(guī)模定制數(shù)據(jù)合成:EliGen的任意形狀掩碼控制能力使其能夠高效生成大規(guī)模定制化的數(shù)據(jù),適用于數(shù)據(jù)增強(qiáng)和機(jī)器學(xué)習(xí)任務(wù)。
- 產(chǎn)品展示與宣傳:EliGen可以生成高質(zhì)量的產(chǎn)品展示圖像,支持精準(zhǔn)的實(shí)體控制和風(fēng)格化設(shè)計(jì),滿足廣告和產(chǎn)品設(shè)計(jì)的多樣需求。
# AI工具# AI項(xiàng)目和框架# 個(gè)性化推薦# 多語言支持# 實(shí)時(shí)情感識(shí)別# 智能數(shù)據(jù)分析# 自動(dòng)化內(nèi)容生成
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...