Mogao – 字節(jié)跳動Seed團隊推出的多模態(tài)理解與生成統(tǒng)一架構(gòu)
Mogao是什么
Mogao是字節(jié)跳動Seed團隊推出的一款交錯多模態(tài)生成基礎(chǔ)模型。它采用了雙視覺編碼器架構(gòu),結(jié)合變分自編碼器(VAE)和視覺變換器(ViT),在視覺理解和圖像生成的上下文對齊方面表現(xiàn)出色。Mogao引入交錯旋轉(zhuǎn)位置嵌入(IL-RoPE),有效捕捉圖像的二維空間位置信息以及多模態(tài)數(shù)據(jù)的時間位置關(guān)系,并通過多模態(tài)無分類器引導(dǎo)技術(shù)進一步提升生成質(zhì)量與一致性。
Mogao的主要功能
- 多模態(tài)理解與生成:Mogao能夠處理文本與圖像的交錯序列,實現(xiàn)優(yōu)質(zhì)的多模態(tài)理解與生成。在給定文本描述的情況下,能夠生成高質(zhì)量的圖像,同時也可以基于圖像生成相關(guān)的文本內(nèi)容。在多模態(tài)理解任務(wù)中,文本標(biāo)記關(guān)注歷史序列中的視覺變換器(ViT)標(biāo)記與文本標(biāo)記,從而更深入地理解圖像內(nèi)容。
- 零樣本圖像編輯與組合生成:Mogao展現(xiàn)出強大的零樣本圖像編輯能力,無需額外訓(xùn)練即可修改和編輯圖像。具備組合生成能力,能夠?qū)⒉煌赜行ЫM合,生成具有高度一致性和連貫性的全新圖像。
- 高質(zhì)量圖像生成:在圖像生成方面,Mogao表現(xiàn)卓越,涵蓋真實感、圖形設(shè)計、動漫和插圖等多種風(fēng)格,支持最高2K分辨率的圖像生成,能夠制作出高細(xì)節(jié)、高質(zhì)量的圖像。
- 文本渲染能力:Mogao在文本渲染方面有顯著進步,文本可用率高達(dá)94%,有效解決了以往圖像生成中中文文本渲染的難題。
Mogao的技術(shù)原理
- 雙視覺編碼器:Mogao運用變分自編碼器(VAE)與視覺變換器(ViT)作為視覺編碼器。在圖像作為條件輸入時,提取VAE與ViT的視覺特征,并將其附加到歷史序列中。對于多模態(tài)理解任務(wù),文本標(biāo)記僅關(guān)注ViT標(biāo)記及文本標(biāo)記;對于多模態(tài)生成任務(wù),噪聲VAE標(biāo)記則會關(guān)注歷史序列中的所有標(biāo)記。
- 深度融合架構(gòu):基于預(yù)訓(xùn)練的大語言模型(LLM),Mogao使用統(tǒng)一的自注意力層同時處理視覺與文本序列,前饋網(wǎng)絡(luò)(FFN)中則采用不同的多層感知機(MLP)來分別處理視覺與文本模態(tài)。
- 交錯旋轉(zhuǎn)位置嵌入(IL-RoPE):該技術(shù)用于捕捉圖像的二維空間位置信息及多模態(tài)數(shù)據(jù)的時間位置關(guān)系,使模型能夠更好地處理交錯的文本與圖像序列。
- 混合分辨率訓(xùn)練:在不同寬高比及分辨率的圖像上進行預(yù)訓(xùn)練與微調(diào),從低分辨率(如2562)到高分辨率(如20482),引入尺寸嵌入,使模型能夠感知目標(biāo)分辨率。
- 跨模態(tài)RoPE:將文本token視作二維token,應(yīng)用二維RoPE,進一步增強視覺與文本token的對齊效果。
- 后訓(xùn)練階段:包括持續(xù)訓(xùn)練(CT)、監(jiān)督微調(diào)(SFT)、人工反饋對齊(RLHF)和提示工程(PE),以提升模型的性能和可控性。
- 缺陷感知型訓(xùn)練范式:引入缺陷檢測器,精確定位缺陷區(qū)域,通過掩碼隱含空間優(yōu)化,有效擴展訓(xùn)練數(shù)據(jù)集。
- Hyper-SD與RayFlow:優(yōu)化生成路徑,引導(dǎo)每個數(shù)據(jù)點至特定實例的目標(biāo)分布,減少路徑碰撞,提高生成穩(wěn)定性和樣本多樣性。
- 重要性采樣機制:學(xué)習(xí)在訓(xùn)練過程中關(guān)注最關(guān)鍵的時間步,支持高效的少步數(shù)采樣,確保生成質(zhì)量不受影響。
Mogao的項目地址
- arXiv技術(shù)論文:https://arxiv.org/pdf/2505.05472
Mogao的應(yīng)用場景
- 內(nèi)容創(chuàng)作:Mogao能夠根據(jù)文本描述生成高質(zhì)量圖像,也可以根據(jù)圖像生成相關(guān)文本描述,助力創(chuàng)作者實現(xiàn)靈感轉(zhuǎn)化。
- 智能助手:Mogao結(jié)合語音、圖像和文本等多種模態(tài),實現(xiàn)更自然、更智能的人機交互體驗。
- 圖像和文本的相互檢索:用戶可以通過輸入文本描述來查找相關(guān)圖像,或通過上傳圖像獲取相關(guān)文本描述,提升信息檢索效率。
- 虛擬現(xiàn)實與增強現(xiàn)實:Mogao可以用于生成虛擬環(huán)境和互動元素,增強虛擬現(xiàn)實和增強現(xiàn)實的用戶體驗。
- 醫(yī)療影像分析:Mogao能夠?qū)⒉煌B(tài)的醫(yī)療影像(如MRI、CT、超聲波等)與文本描述相結(jié)合,提升疾病診斷的準(zhǔn)確性和早期發(fā)現(xiàn)能力。
常見問題
- Mogao支持哪些輸入格式? Mogao支持文本和圖像的交錯輸入,用戶可以靈活選擇輸入內(nèi)容。
- 生成的圖像質(zhì)量如何? Mogao可生成高達(dá)2K分辨率的圖像,細(xì)節(jié)表現(xiàn)優(yōu)異,適用于多種風(fēng)格。
- 使用Mogao需要專業(yè)知識嗎? 不需要,Mogao設(shè)計為用戶友好,適合各類用戶使用。
- 如何訪問Mogao的更多信息? 可以訪問Mogao的項目地址,查閱相關(guān)技術(shù)論文和應(yīng)用示例。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...