国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Mogao

Mogao – 字節跳動Seed團隊推出的多模態理解與生成統一架構

Mogao

Mogao是什么

Mogao是字節跳動Seed團隊推出的一款交錯多模態生成基礎模型。它采用了雙視覺編碼器架構，結合變分自編碼器（VAE）和視覺變換器（ViT），在視覺理解和圖像生成的上下文對齊方面表現出色。Mogao引入交錯旋轉位置嵌入（IL-RoPE），有效捕捉圖像的二維空間位置信息以及多模態數據的時間位置關系，并通過多模態無分類器引導技術進一步提升生成質量與一致性。

Mogao的主要功能

多模態理解與生成：Mogao能夠處理文本與圖像的交錯序列，實現優質的多模態理解與生成。在給定文本描述的情況下，能夠生成高質量的圖像，同時也可以基于圖像生成相關的文本內容。在多模態理解任務中，文本標記關注歷史序列中的視覺變換器（ViT）標記與文本標記，從而更深入地理解圖像內容。
零樣本圖像編輯與組合生成：Mogao展現出強大的零樣本圖像編輯能力，無需額外訓練即可修改和編輯圖像。具備組合生成能力，能夠將不同元素有效組合，生成具有高度一致性和連貫性的全新圖像。
高質量圖像生成：在圖像生成方面，Mogao表現卓越，涵蓋真實感、圖形設計、動漫和插圖等多種風格，支持最高2K分辨率的圖像生成，能夠制作出高細節、高質量的圖像。
文本渲染能力：Mogao在文本渲染方面有顯著進步，文本可用率高達94%，有效解決了以往圖像生成中中文文本渲染的難題。

Mogao的技術原理

雙視覺編碼器：Mogao運用變分自編碼器（VAE）與視覺變換器（ViT）作為視覺編碼器。在圖像作為條件輸入時，提取VAE與ViT的視覺特征，并將其附加到歷史序列中。對于多模態理解任務，文本標記僅關注ViT標記及文本標記；對于多模態生成任務，噪聲VAE標記則會關注歷史序列中的所有標記。
深度融合架構：基于預訓練的大語言模型（LLM），Mogao使用統一的自注意力層同時處理視覺與文本序列，前饋網絡（FFN）中則采用不同的多層感知機（MLP）來分別處理視覺與文本模態。
交錯旋轉位置嵌入（IL-RoPE）：該技術用于捕捉圖像的二維空間位置信息及多模態數據的時間位置關系，使模型能夠更好地處理交錯的文本與圖像序列。
混合分辨率訓練：在不同寬高比及分辨率的圖像上進行預訓練與微調，從低分辨率（如2562）到高分辨率（如20482），引入尺寸嵌入，使模型能夠感知目標分辨率。
跨模態RoPE：將文本token視作二維token，應用二維RoPE，進一步增強視覺與文本token的對齊效果。
后訓練階段：包括持續訓練（CT）、監督微調（SFT）、人工反饋對齊（RLHF）和提示工程（PE），以提升模型的性能和可控性。
缺陷感知型訓練范式：引入缺陷檢測器，精確定位缺陷區域，通過掩碼隱含空間優化，有效擴展訓練數據集。
Hyper-SD與RayFlow：優化生成路徑，引導每個數據點至特定實例的目標分布，減少路徑碰撞，提高生成穩定性和樣本多樣性。
重要性采樣機制：學習在訓練過程中關注最關鍵的時間步，支持高效的少步數采樣，確保生成質量不受影響。