<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        EliGen

        AI工具5個(gè)月前更新 AI工具集
        1,343 0 0

        EliGen – 浙大聯(lián)合阿里推出的新型實(shí)體級(jí)可控圖像生成框架

        EliGen是一款由浙江大學(xué)與阿里巴巴集團(tuán)共同研發(fā)的創(chuàng)新型實(shí)體級(jí)可控圖像生成框架。它通過引入?yún)^(qū)域注意力機(jī)制,能夠?qū)?shí)體提示與任意形狀的空間掩碼無縫集成到擴(kuò)散變換器中,且無需額外參數(shù)。此外,EliGen還包含一個(gè)包含50萬高質(zhì)量注釋樣本的數(shù)據(jù)集,旨在訓(xùn)練出具有高魯棒性和準(zhǔn)確性的圖像生成模型。

        EliGen是什么

        EliGen是浙江大學(xué)與阿里巴巴集團(tuán)聯(lián)合開發(fā)的一種新型實(shí)體級(jí)可控圖像生成框架。該框架通過引入?yún)^(qū)域注意力機(jī)制,能夠在不增加額外參數(shù)的情況下,將實(shí)體提示與任意形狀的空間掩碼無縫集成到擴(kuò)散變換器中。EliGen涵蓋了50萬高質(zhì)量注釋樣本的數(shù)據(jù)集,旨在訓(xùn)練出魯棒且精確的實(shí)體級(jí)操控能力。此外,EliGen還提出了修復(fù)融合管道,能夠擴(kuò)展至多實(shí)體圖像修復(fù)任務(wù)。

        EliGen

        EliGen的主要功能

        • 實(shí)體級(jí)精確控制:EliGen利用區(qū)域注意力機(jī)制,能夠?qū)D像中的每個(gè)實(shí)體進(jìn)行精準(zhǔn)的控制,包括其位置、形狀和語義屬性。
        • 多實(shí)體圖像修復(fù):EliGen采用了修復(fù)融合管道,使其能夠在單次前向傳遞中對(duì)多個(gè)實(shí)體進(jìn)行修復(fù),極大提升了多實(shí)體圖像修復(fù)的效率。
        • 風(fēng)格化實(shí)體控制:結(jié)合IP-Adapter,EliGen能夠根據(jù)參考圖像的風(fēng)格生成目標(biāo)圖像,實(shí)現(xiàn)個(gè)性化的風(fēng)格化實(shí)體控制。
        • 交互式圖像設(shè)計(jì)與編輯:通過與多模態(tài)語言模型(MLLM)的集成,EliGen能夠基于用戶的對(duì)話進(jìn)行圖像設(shè)計(jì)與編輯,用戶可以通過文本描述生成或修改圖像。
        • 與社區(qū)模型集成:EliGen支持與開源模型如IP-Adapter、In-Context LoRA和MLLM無縫集成,拓展了創(chuàng)意的可能性,包括風(fēng)格化實(shí)體控制、實(shí)體轉(zhuǎn)移及基于對(duì)話的圖像設(shè)計(jì)與編輯。
        • 強(qiáng)大的泛化能力:EliGen在不同隨機(jī)種子、變化的實(shí)置以及不合理的位置輸入下,依然能夠保持良好的泛化能力,生成高質(zhì)量且符合要求的圖像。

        EliGen的技術(shù)原理

        • 區(qū)域注意力機(jī)制:EliGen引入的區(qū)域注意力機(jī)制擴(kuò)展了擴(kuò)散變換器(DiT)的注意力模塊,能夠處理各種形狀的實(shí)體掩碼。通過結(jié)合全局提示與局部提示,形成擴(kuò)展提示序列,并基于空間條件構(gòu)建聯(lián)合注意力掩碼(包括實(shí)體間和實(shí)體內(nèi)掩碼),無需額外參數(shù)便可實(shí)現(xiàn)實(shí)體細(xì)節(jié)的調(diào)整。
        • 高質(zhì)量數(shù)據(jù)集構(gòu)建:為了訓(xùn)練EliGen,研究團(tuán)隊(duì)構(gòu)建了包含50萬個(gè)高質(zhì)量注釋樣本的數(shù)據(jù)集。這些樣本通過Flux生成圖像,并基于Qwen2-VL視覺語言模型進(jìn)行全面的提示與實(shí)體信息標(biāo)注,確保模型在實(shí)體級(jí)操控中的魯棒性與準(zhǔn)確性。
        • 訓(xùn)練與微調(diào):EliGen采用低秩適應(yīng)(LoRA)方法進(jìn)行高效微調(diào),確保模型快速收斂。LoRA權(quán)重應(yīng)用于DiT的每個(gè)塊的線性層,包括注意力層的投影層和自適應(yīng)LayerNorm內(nèi)的線性層。
        • 修復(fù)融合管道:EliGen提出的修復(fù)融合管道專門用于多實(shí)體圖像修復(fù)任務(wù),基于區(qū)域的噪聲融合操作使其能夠在一次前向傳遞中修復(fù)多個(gè)實(shí)體,同時(shí)保持非修復(fù)區(qū)域的圖像質(zhì)量。

        EliGen的項(xiàng)目地址

        EliGen的應(yīng)用場景

        • 虛擬場景生成:EliGen能夠生成高質(zhì)量的虛擬場景,支持任意形狀掩碼的實(shí)體控制,適合用于虛擬現(xiàn)實(shí)和游戲開發(fā)中的場景設(shè)計(jì)。
        • 角色與道具設(shè)計(jì):用戶可以精準(zhǔn)控制角色和道具的形狀、位置和風(fēng)格,為虛擬世界中的角色和道具設(shè)計(jì)提供強(qiáng)大支持。
        • 大規(guī)模定制數(shù)據(jù)合成:EliGen的任意形狀掩碼控制能力使其能夠高效生成大規(guī)模定制化的數(shù)據(jù),適用于數(shù)據(jù)增強(qiáng)和機(jī)器學(xué)習(xí)任務(wù)。
        • 產(chǎn)品展示與宣傳:EliGen可以生成高質(zhì)量的產(chǎn)品展示圖像,支持精準(zhǔn)的實(shí)體控制和風(fēng)格化設(shè)計(jì),滿足廣告和產(chǎn)品設(shè)計(jì)的多樣需求。
        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 国产成人精品日本亚洲语音| 亚洲无线一二三四区手机| 中文字幕亚洲免费无线观看日本| 青青操免费在线视频| 在线毛片片免费观看| 亚洲网站免费观看| 亚洲AⅤ永久无码精品AA| 国产亚洲AV夜间福利香蕉149| 亚洲国产日韩一区高清在线| 亚洲国产午夜精品理论片| 亚洲爆乳无码专区www| 热99RE久久精品这里都是精品免费| 亚洲国产精品无码久久青草| 亚洲福利电影一区二区?| 国产成人va亚洲电影| 2019中文字幕在线电影免费| 亚洲精品mv在线观看| 人禽杂交18禁网站免费| 亚洲日韩欧洲无码av夜夜摸| 亚洲日韩精品无码专区加勒比 | 67194国产精品免费观看| 久久久久亚洲AV片无码下载蜜桃| 精品在线免费视频| 久久精品国产精品亚洲艾草网美妙 | 最近免费中文字幕MV在线视频3 | 中文字幕亚洲日韩无线码| 最新亚洲成av人免费看| 亚洲综合在线视频| 最近中文字幕mv手机免费高清| 亚洲国产精品一区第二页 | 亚洲成年网站在线观看| 9久久免费国产精品特黄| 女人被男人躁的女爽免费视频| 亚洲精品中文字幕无码蜜桃| 粉色视频免费入口| 亚洲VA中文字幕无码一二三区 | 亚洲中文字幕无码中文字在线| 无码人妻丰满熟妇区免费 | 亚洲色图在线观看| 大学生一级特黄的免费大片视频| 特级毛片在线大全免费播放|