LDGen

LDGen – 理想汽車推出的多語言文本到圖像生成技術

LDGen是什么

LDGen是一種前沿的文本到圖像合成技術，通過將大型語言模型（LLMs）與擴散模型相結合，顯著提高了從文本描述生成圖像的質量和語義一致性。該技術通過分層標題優化和人類指令技術提煉文本中的精準語義信息，并利用輕量級適配器實現LLMs與圖像特征的高效對接與互動。LDGen還支持零樣本多語言生成，能夠根據多種語言的文本描述生成出色的圖像，遠超傳統方法。

LDGen

LDGen的主要功能

多語言零樣本生成：LDGen結合了大型語言模型（LLM）與現有的文本到圖像擴散模型，具備零樣本多語言文本到圖像生成的能力。即使在訓練過程中僅使用英語提示，模型也能根據多種語言生成相應圖像，極大增強了跨語言生成的能力。
語言表示優化：通過分層字幕優化和人工指令技術，LDGen提取出更為精確的語義信息，增強了文本與圖像之間的語義對齊。這提高了生成圖像的語義一致性，避免了因錯誤指令引起的虛假信息。
提升生成質量：在多次實驗中，LDGen在指令遵循度和圖像美學質量方面表現優于基線模型及其他增強方法，如PixArt-和ELLA等。

LDGen的技術原理

語言表示策略：LDGen采用分層字幕優化與人工指令技術以提取更精確的語義信息。通過生成不同長度的字幕，并結合人工指令的優化，模型能夠更有效地捕捉圖像內容的層次結構，同時避免因錯誤指令造成的虛假信息。
LLM對齊模塊：為了使LLM的特征與現有擴散模型的特征相對齊，LDGen設計了輕量級的適配器。該適配器通過調整LLM輸出的特征空間，使其與T5等文本編碼器的特征空間相匹配，實現高效特征對齊。
跨模態精煉器：LDGen引入了跨模態精煉器模塊，以增強LLM特征與圖像特征之間的互動。該模塊通過自注意力機制、交叉注意力機制等組件優化LLM的特征表示，進一步提升文本與圖像之間的語義對齊。
- 自注意力機制（Self-Attention）：優化LLM特征的內部表示。
- 交叉注意力機制（Cross-Attention）：以LLM特征作為查詢（Query），圖像特征作為鍵（Key）和值（Value），促進文本與圖像間的深度互動。
- 可學習的縮放因子（Learnable Scaling Factors）：在訓練過程中動態平衡原始特征與優化后特征，確保從預訓練權重到新特征的平滑過渡。
高效訓練策略與效率：LDGen通過分階段訓練顯著降低了計算需求：
- 特征對齊階段：使用約8000萬條文本數據進行LLM對齊模塊的訓練。
- 微調階段：在512分辨率下使用2400萬對文本-圖像對進行微調。
- 高分辨率訓練階段：在1024分辨率下使用1400萬條數據進行進一步訓練。整個訓練過程僅需約120個A100 GPU天，相比PixArt-α減少了約74%的計算資源。

LDGen的項目地址

項目官網：https://zrealli.github.io/LDGen/
Github倉庫：https://github.com/zrealli/LDGen
arXiv技術論文：https://arxiv.org/pdf/2502.18302

LDGen的應用場景

藝術創作與設計：藝術家和設計師可以利用LDGen將創意描述轉化為高質量圖像，快速推動創作進程。能夠迅速將文本描述轉化為視覺內容，幫助創作者探索多樣的設計方向。
廣告與營銷：在廣告和營銷領域，LDGen能夠根據品牌風格或市場趨勢快速生成吸引人的廣告圖像和社交媒體內容。通過文本描述直接生成圖像，可以提升宣傳材料的吸引力和個性化。
媒體與娛樂：LDGen適用于電影、游戲和動畫制作中的概念藝術創作，能夠生成場景和角色的初步視覺表現。在電影制作中，可以生成特效場景的初步草圖，幫助導演和設計師快速預覽場景布局。
教育：在教育領域，LDGen能夠幫助學生和教師制作教學材料，如歷史場景重現或科學概念的視覺化。通過文本描述生成圖像，能夠更直觀地展示復雜的概念。
電子商務：在線零售商可利用LDGen生成產品的視覺展示，以展示服裝在不同環境或不同模特身上的效果。幫助商家快速生成高質量的產品圖片，提升用戶體驗。