CreatiLayout – 復旦和字節聯合推出創新的布局到圖像生成技術
CreatiLayout是什么
CreatiLayout 是由復旦大學與字節跳動合作開發的一項前沿技術,旨在實現從布局到圖像的生成(Layout-to-Image,L2I)。該技術依托于一套龐大的布局數據集 LayoutSAM,該數據集包括 270 萬圖像-文本配對及 1070 萬個詳細的實體標注,涵蓋顏色、形狀、紋理等多種屬性。CreatiLayout 的核心架構為 SiamLayout,采用了獨特的方式將布局信息視作一種的模態,并通過 MM-DiT 的 MM-Attention 機制促成布局與圖像模態之間的互動,有效地解決了模態競爭的問題。此外,CreatiLayout 還配備了 LayoutDesigner,借助大語言模型幫助用戶生成和優化布局,支持多種輸入形式,包括中心點、掩碼、草圖和文本描述等。
CreatiLayout的主要功能
- 高質量圖像生成:基于孿生多模態擴散變換器(Siamese Multimodal Diffusion Transformer),CreatiLayout 能夠生成高質量且細致可控的圖像,能夠精準渲染復雜的屬性,如顏色、紋理和形狀。
- 布局生成與優化:通過 LayoutDesigner,CreatiLayout 可以根據用戶輸入的不同形式(例如中心點、掩碼、草圖、文本描述等)生成和優化布局,允許用戶靈活表達設計意圖,創造和諧美觀的布局效果。
- 大規模數據集支持:CreatiLayout 構建了名為 LayoutSAM 的大規模布局數據集,涵蓋 270 萬圖像-文本對及 1070 萬個實體標注,為模型的訓練和優化提供了豐富的數據基礎。
- 多模態交互:在技術架構上,CreatiLayout 將布局信息視為一種模態,通過 MM-DiT 的 MM-Attention 實現布局模態與圖像模態的有效交互。
CreatiLayout的技術原理
- 孿生多模態擴散變換器:CreatiLayout 基于這種變換器實現高質量且細致可控的圖像生成,能夠高效處理包括圖像、文本和布局信息在內的多模態數據。
- SiamLayout 框架:該框架將布局信息視為模態,與文本和圖像模態同等重要。通過 MM-DiT 的 MM-Attention 機制,布局模態與圖像模態之間的交互得以實現,從而減輕模態競爭的問題,增強布局對圖像生成的指導作用。具體而言,圖像、文本和布局三種模態的交互被解耦為兩個的分支:圖像-文本交互分支與圖像-布局交互分支,使得文本與布局對圖像內容的指導各自發揮作用而互不干擾。
- LayoutDesigner:基于大型語言模型進行布局規劃和優化,支持用戶通過多種輸入形式(如中心點、掩碼、草圖、文本描述等)生成和優化布局。
CreatiLayout的項目地址
- 項目官網:https://creatilayout.github.io
- Github倉庫:https://github.com/HuiZhang0812/CreatiLayout
- arXiv技術論文:https://arxiv.org/pdf/2412.03859
- 在線體驗Demo:https://huggingface.co/spaces/HuiZhang0812/CreatiLayout
CreatiLayout的應用場景
- 宣傳海報制作:設計師可以借助 CreatiLayout 快速生成符合要求的高質量宣傳海報。
- 家具擺放優化:CreatiLayout 能夠精準解析家具的位置和尺寸,生成逼真的室內效果圖。
- 視覺效果創作:開發者可以利用該工具探索新的視覺效果和風格,通過精確控制布局和圖像細節,創造出更具創意和吸引力的游戲畫面。
- 教學材料制作:教師能夠通過 CreatiLayout 將知識點以圖文并茂的形式呈現,提升學習效果。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...