CreatiLayout – 復(fù)旦和字節(jié)聯(lián)合推出創(chuàng)新的布局到圖像生成技術(shù)
CreatiLayout是什么
CreatiLayout 是由復(fù)旦大學(xué)與字節(jié)跳動(dòng)合作開發(fā)的一項(xiàng)前沿技術(shù),旨在實(shí)現(xiàn)從布局到圖像的生成(Layout-to-Image,L2I)。該技術(shù)依托于一套龐大的布局?jǐn)?shù)據(jù)集 LayoutSAM,該數(shù)據(jù)集包括 270 萬圖像-文本配對及 1070 萬個(gè)詳細(xì)的實(shí)體標(biāo)注,涵蓋顏色、形狀、紋理等多種屬性。CreatiLayout 的核心架構(gòu)為 SiamLayout,采用了獨(dú)特的方式將布局信息視作一種的模態(tài),并通過 MM-DiT 的 MM-Attention 機(jī)制促成布局與圖像模態(tài)之間的互動(dòng),有效地解決了模態(tài)競爭的問題。此外,CreatiLayout 還配備了 LayoutDesigner,借助大語言模型幫助用戶生成和優(yōu)化布局,支持多種輸入形式,包括中心點(diǎn)、掩碼、草圖和文本描述等。

CreatiLayout的主要功能
- 高質(zhì)量圖像生成:基于孿生多模態(tài)擴(kuò)散變換器(Siamese Multimodal Diffusion Transformer),CreatiLayout 能夠生成高質(zhì)量且細(xì)致可控的圖像,能夠精準(zhǔn)渲染復(fù)雜的屬性,如顏色、紋理和形狀。
- 布局生成與優(yōu)化:通過 LayoutDesigner,CreatiLayout 可以根據(jù)用戶輸入的不同形式(例如中心點(diǎn)、掩碼、草圖、文本描述等)生成和優(yōu)化布局,允許用戶靈活表達(dá)設(shè)計(jì)意圖,創(chuàng)造和諧美觀的布局效果。
- 大規(guī)模數(shù)據(jù)集支持:CreatiLayout 構(gòu)建了名為 LayoutSAM 的大規(guī)模布局?jǐn)?shù)據(jù)集,涵蓋 270 萬圖像-文本對及 1070 萬個(gè)實(shí)體標(biāo)注,為模型的訓(xùn)練和優(yōu)化提供了豐富的數(shù)據(jù)基礎(chǔ)。
- 多模態(tài)交互:在技術(shù)架構(gòu)上,CreatiLayout 將布局信息視為一種模態(tài),通過 MM-DiT 的 MM-Attention 實(shí)現(xiàn)布局模態(tài)與圖像模態(tài)的有效交互。
CreatiLayout的技術(shù)原理
- 孿生多模態(tài)擴(kuò)散變換器:CreatiLayout 基于這種變換器實(shí)現(xiàn)高質(zhì)量且細(xì)致可控的圖像生成,能夠高效處理包括圖像、文本和布局信息在內(nèi)的多模態(tài)數(shù)據(jù)。
- SiamLayout 框架:該框架將布局信息視為模態(tài),與文本和圖像模態(tài)同等重要。通過 MM-DiT 的 MM-Attention 機(jī)制,布局模態(tài)與圖像模態(tài)之間的交互得以實(shí)現(xiàn),從而減輕模態(tài)競爭的問題,增強(qiáng)布局對圖像生成的指導(dǎo)作用。具體而言,圖像、文本和布局三種模態(tài)的交互被解耦為兩個(gè)的分支:圖像-文本交互分支與圖像-布局交互分支,使得文本與布局對圖像內(nèi)容的指導(dǎo)各自發(fā)揮作用而互不干擾。
- LayoutDesigner:基于大型語言模型進(jìn)行布局規(guī)劃和優(yōu)化,支持用戶通過多種輸入形式(如中心點(diǎn)、掩碼、草圖、文本描述等)生成和優(yōu)化布局。
CreatiLayout的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://creatilayout.github.io
- Github倉庫:https://github.com/HuiZhang0812/CreatiLayout
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.03859
- 在線體驗(yàn)Demo:https://huggingface.co/spaces/HuiZhang0812/CreatiLayout
CreatiLayout的應(yīng)用場景
- 宣傳海報(bào)制作:設(shè)計(jì)師可以借助 CreatiLayout 快速生成符合要求的高質(zhì)量宣傳海報(bào)。
- 家具擺放優(yōu)化:CreatiLayout 能夠精準(zhǔn)解析家具的位置和尺寸,生成逼真的室內(nèi)效果圖。
- 視覺效果創(chuàng)作:開發(fā)者可以利用該工具探索新的視覺效果和風(fēng)格,通過精確控制布局和圖像細(xì)節(jié),創(chuàng)造出更具創(chuàng)意和吸引力的游戲畫面。
- 教學(xué)材料制作:教師能夠通過 CreatiLayout 將知識(shí)點(diǎn)以圖文并茂的形式呈現(xiàn),提升學(xué)習(xí)效果。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號(hào)