<center id="4c42u"></center>

<rt id="4c42u"></rt>

<rt id="4c42u"></rt>

EliGen

AI工具5個(gè)月前更新 AI工具集

1,343 0 0

EliGen – 浙大聯(lián)合阿里推出的新型實(shí)體級(jí)可控圖像生成框架

EliGen是一款由浙江大學(xué)與阿里巴巴集團(tuán)共同研發(fā)的創(chuàng)新型實(shí)體級(jí)可控圖像生成框架。它通過引入?yún)^(qū)域注意力機(jī)制，能夠?qū)?shí)體提示與任意形狀的空間掩碼無縫集成到擴(kuò)散變換器中，且無需額外參數(shù)。此外，EliGen還包含一個(gè)包含50萬高質(zhì)量注釋樣本的數(shù)據(jù)集，旨在訓(xùn)練出具有高魯棒性和準(zhǔn)確性的圖像生成模型。

EliGen是什么

EliGen是浙江大學(xué)與阿里巴巴集團(tuán)聯(lián)合開發(fā)的一種新型實(shí)體級(jí)可控圖像生成框架。該框架通過引入?yún)^(qū)域注意力機(jī)制，能夠在不增加額外參數(shù)的情況下，將實(shí)體提示與任意形狀的空間掩碼無縫集成到擴(kuò)散變換器中。EliGen涵蓋了50萬高質(zhì)量注釋樣本的數(shù)據(jù)集，旨在訓(xùn)練出魯棒且精確的實(shí)體級(jí)操控能力。此外，EliGen還提出了修復(fù)融合管道，能夠擴(kuò)展至多實(shí)體圖像修復(fù)任務(wù)。

EliGen

EliGen的主要功能

實(shí)體級(jí)精確控制：EliGen利用區(qū)域注意力機(jī)制，能夠?qū)D像中的每個(gè)實(shí)體進(jìn)行精準(zhǔn)的控制，包括其位置、形狀和語義屬性。
多實(shí)體圖像修復(fù)：EliGen采用了修復(fù)融合管道，使其能夠在單次前向傳遞中對(duì)多個(gè)實(shí)體進(jìn)行修復(fù)，極大提升了多實(shí)體圖像修復(fù)的效率。
風(fēng)格化實(shí)體控制：結(jié)合IP-Adapter，EliGen能夠根據(jù)參考圖像的風(fēng)格生成目標(biāo)圖像，實(shí)現(xiàn)個(gè)性化的風(fēng)格化實(shí)體控制。
交互式圖像設(shè)計(jì)與編輯：通過與多模態(tài)語言模型（MLLM）的集成，EliGen能夠基于用戶的對(duì)話進(jìn)行圖像設(shè)計(jì)與編輯，用戶可以通過文本描述生成或修改圖像。
與社區(qū)模型集成：EliGen支持與開源模型如IP-Adapter、In-Context LoRA和MLLM無縫集成，拓展了創(chuàng)意的可能性，包括風(fēng)格化實(shí)體控制、實(shí)體轉(zhuǎn)移及基于對(duì)話的圖像設(shè)計(jì)與編輯。
強(qiáng)大的泛化能力：EliGen在不同隨機(jī)種子、變化的實(shí)置以及不合理的位置輸入下，依然能夠保持良好的泛化能力，生成高質(zhì)量且符合要求的圖像。

EliGen的技術(shù)原理

區(qū)域注意力機(jī)制：EliGen引入的區(qū)域注意力機(jī)制擴(kuò)展了擴(kuò)散變換器（DiT）的注意力模塊，能夠處理各種形狀的實(shí)體掩碼。通過結(jié)合全局提示與局部提示，形成擴(kuò)展提示序列，并基于空間條件構(gòu)建聯(lián)合注意力掩碼（包括實(shí)體間和實(shí)體內(nèi)掩碼），無需額外參數(shù)便可實(shí)現(xiàn)實(shí)體細(xì)節(jié)的調(diào)整。
高質(zhì)量數(shù)據(jù)集構(gòu)建：為了訓(xùn)練EliGen，研究團(tuán)隊(duì)構(gòu)建了包含50萬個(gè)高質(zhì)量注釋樣本的數(shù)據(jù)集。這些樣本通過Flux生成圖像，并基于Qwen2-VL視覺語言模型進(jìn)行全面的提示與實(shí)體信息標(biāo)注，確保模型在實(shí)體級(jí)操控中的魯棒性與準(zhǔn)確性。
訓(xùn)練與微調(diào)：EliGen采用低秩適應(yīng)（LoRA）方法進(jìn)行高效微調(diào)，確保模型快速收斂。LoRA權(quán)重應(yīng)用于DiT的每個(gè)塊的線性層，包括注意力層的投影層和自適應(yīng)LayerNorm內(nèi)的線性層。
修復(fù)融合管道：EliGen提出的修復(fù)融合管道專門用于多實(shí)體圖像修復(fù)任務(wù)，基于區(qū)域的噪聲融合操作使其能夠在一次前向傳遞中修復(fù)多個(gè)實(shí)體，同時(shí)保持非修復(fù)區(qū)域的圖像質(zhì)量。

EliGen的項(xiàng)目地址

arXiv技術(shù)論文：https://arxiv.org/pdf/2501.01097

EliGen的應(yīng)用場景

虛擬場景生成：EliGen能夠生成高質(zhì)量的虛擬場景，支持任意形狀掩碼的實(shí)體控制，適合用于虛擬現(xiàn)實(shí)和游戲開發(fā)中的場景設(shè)計(jì)。
角色與道具設(shè)計(jì)：用戶可以精準(zhǔn)控制角色和道具的形狀、位置和風(fēng)格，為虛擬世界中的角色和道具設(shè)計(jì)提供強(qiáng)大支持。
大規(guī)模定制數(shù)據(jù)合成：EliGen的任意形狀掩碼控制能力使其能夠高效生成大規(guī)模定制化的數(shù)據(jù)，適用于數(shù)據(jù)增強(qiáng)和機(jī)器學(xué)習(xí)任務(wù)。
產(chǎn)品展示與宣傳：EliGen可以生成高質(zhì)量的產(chǎn)品展示圖像，支持精準(zhǔn)的實(shí)體控制和風(fēng)格化設(shè)計(jì)，滿足廣告和產(chǎn)品設(shè)計(jì)的多樣需求。

閱讀原文