EliGen – 浙大聯合阿里推出的新型實體級可控圖像生成框架
EliGen是一款由浙江大學與阿里巴巴集團共同研發的創新型實體級可控圖像生成框架。它通過引入區域注意力機制,能夠將實體提示與任意形狀的空間掩碼無縫集成到擴散變換器中,且無需額外參數。此外,EliGen還包含一個包含50萬高質量注釋樣本的數據集,旨在訓練出具有高魯棒性和準確性的圖像生成模型。
EliGen是什么
EliGen是浙江大學與阿里巴巴集團聯合開發的一種新型實體級可控圖像生成框架。該框架通過引入區域注意力機制,能夠在不增加額外參數的情況下,將實體提示與任意形狀的空間掩碼無縫集成到擴散變換器中。EliGen涵蓋了50萬高質量注釋樣本的數據集,旨在訓練出魯棒且精確的實體級操控能力。此外,EliGen還提出了修復融合管道,能夠擴展至多實體圖像修復任務。
EliGen的主要功能
- 實體級精確控制:EliGen利用區域注意力機制,能夠對圖像中的每個實體進行精準的控制,包括其位置、形狀和語義屬性。
- 多實體圖像修復:EliGen采用了修復融合管道,使其能夠在單次前向傳遞中對多個實體進行修復,極大提升了多實體圖像修復的效率。
- 風格化實體控制:結合IP-Adapter,EliGen能夠根據參考圖像的風格生成目標圖像,實現個性化的風格化實體控制。
- 交互式圖像設計與編輯:通過與多模態語言模型(MLLM)的集成,EliGen能夠基于用戶的對話進行圖像設計與編輯,用戶可以通過文本描述生成或修改圖像。
- 與社區模型集成:EliGen支持與開源模型如IP-Adapter、In-Context LoRA和MLLM無縫集成,拓展了創意的可能性,包括風格化實體控制、實體轉移及基于對話的圖像設計與編輯。
- 強大的泛化能力:EliGen在不同隨機種子、變化的實置以及不合理的位置輸入下,依然能夠保持良好的泛化能力,生成高質量且符合要求的圖像。
EliGen的技術原理
- 區域注意力機制:EliGen引入的區域注意力機制擴展了擴散變換器(DiT)的注意力模塊,能夠處理各種形狀的實體掩碼。通過結合全局提示與局部提示,形成擴展提示序列,并基于空間條件構建聯合注意力掩碼(包括實體間和實體內掩碼),無需額外參數便可實現實體細節的調整。
- 高質量數據集構建:為了訓練EliGen,研究團隊構建了包含50萬個高質量注釋樣本的數據集。這些樣本通過Flux生成圖像,并基于Qwen2-VL視覺語言模型進行全面的提示與實體信息標注,確保模型在實體級操控中的魯棒性與準確性。
- 訓練與微調:EliGen采用低秩適應(LoRA)方法進行高效微調,確保模型快速收斂。LoRA權重應用于DiT的每個塊的線性層,包括注意力層的投影層和自適應LayerNorm內的線性層。
- 修復融合管道:EliGen提出的修復融合管道專門用于多實體圖像修復任務,基于區域的噪聲融合操作使其能夠在一次前向傳遞中修復多個實體,同時保持非修復區域的圖像質量。
EliGen的項目地址
- arXiv技術論文:https://arxiv.org/pdf/2501.01097
EliGen的應用場景
- 虛擬場景生成:EliGen能夠生成高質量的虛擬場景,支持任意形狀掩碼的實體控制,適合用于虛擬現實和游戲開發中的場景設計。
- 角色與道具設計:用戶可以精準控制角色和道具的形狀、位置和風格,為虛擬世界中的角色和道具設計提供強大支持。
- 大規模定制數據合成:EliGen的任意形狀掩碼控制能力使其能夠高效生成大規模定制化的數據,適用于數據增強和機器學習任務。
- 產品展示與宣傳:EliGen可以生成高質量的產品展示圖像,支持精準的實體控制和風格化設計,滿足廣告和產品設計的多樣需求。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...