<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Mogao

        AI工具2個月前更新 AI工具集
        5 0 0

        Mogao – 字節跳動Seed團隊推出的多模態理解與生成統一架構

        Mogao

        Mogao是什么

        Mogao是字節跳動Seed團隊推出的一款交錯多模態生成基礎模型。它采用了雙視覺編碼器架構,結合變分自編碼器(VAE)和視覺變換器(ViT),在視覺理解和圖像生成的上下文對齊方面表現出色。Mogao引入交錯旋轉位置嵌入(IL-RoPE),有效捕捉圖像的二維空間位置信息以及多模態數據的時間位置關系,并通過多模態無分類器引導技術進一步提升生成質量與一致性。

        Mogao的主要功能

        • 多模態理解與生成:Mogao能夠處理文本與圖像的交錯序列,實現優質的多模態理解與生成。在給定文本描述的情況下,能夠生成高質量的圖像,同時也可以基于圖像生成相關的文本內容。在多模態理解任務中,文本標記關注歷史序列中的視覺變換器(ViT)標記與文本標記,從而更深入地理解圖像內容。
        • 零樣本圖像編輯與組合生成:Mogao展現出強大的零樣本圖像編輯能力,無需額外訓練即可修改和編輯圖像。具備組合生成能力,能夠將不同元素有效組合,生成具有高度一致性和連貫性的全新圖像。
        • 高質量圖像生成:在圖像生成方面,Mogao表現卓越,涵蓋真實感、圖形設計、動漫和插圖等多種風格,支持最高2K分辨率的圖像生成,能夠制作出高細節、高質量的圖像。
        • 文本渲染能力:Mogao在文本渲染方面有顯著進步,文本可用率高達94%,有效解決了以往圖像生成中中文文本渲染的難題。

        Mogao的技術原理

        • 雙視覺編碼器:Mogao運用變分自編碼器(VAE)與視覺變換器(ViT)作為視覺編碼器。在圖像作為條件輸入時,提取VAE與ViT的視覺特征,并將其附加到歷史序列中。對于多模態理解任務,文本標記僅關注ViT標記及文本標記;對于多模態生成任務,噪聲VAE標記則會關注歷史序列中的所有標記。
        • 深度融合架構:基于預訓練的大語言模型(LLM),Mogao使用統一的自注意力層同時處理視覺與文本序列,前饋網絡(FFN)中則采用不同的多層感知機(MLP)來分別處理視覺與文本模態。
        • 交錯旋轉位置嵌入(IL-RoPE):該技術用于捕捉圖像的二維空間位置信息及多模態數據的時間位置關系,使模型能夠更好地處理交錯的文本與圖像序列。
        • 混合分辨率訓練:在不同寬高比及分辨率的圖像上進行預訓練與微調,從低分辨率(如2562)到高分辨率(如20482),引入尺寸嵌入,使模型能夠感知目標分辨率。
        • 跨模態RoPE:將文本token視作二維token,應用二維RoPE,進一步增強視覺與文本token的對齊效果。
        • 后訓練階段:包括持續訓練(CT)、監督微調(SFT)、人工反饋對齊(RLHF)和提示工程(PE),以提升模型的性能和可控性。
        • 缺陷感知型訓練范式:引入缺陷檢測器,精確定位缺陷區域,通過掩碼隱含空間優化,有效擴展訓練數據集。
        • Hyper-SD與RayFlow:優化生成路徑,引導每個數據點至特定實例的目標分布,減少路徑碰撞,提高生成穩定性和樣本多樣性。
        • 重要性采樣機制:學習在訓練過程中關注最關鍵的時間步,支持高效的少步數采樣,確保生成質量不受影響。

        Mogao的項目地址

        Mogao的應用場景

        • 內容創作:Mogao能夠根據文本描述生成高質量圖像,也可以根據圖像生成相關文本描述,助力創作者實現靈感轉化。
        • 智能助手:Mogao結合語音、圖像和文本等多種模態,實現更自然、更智能的人機交互體驗。
        • 圖像和文本的相互檢索:用戶可以通過輸入文本描述來查找相關圖像,或通過上傳圖像獲取相關文本描述,提升信息檢索效率。
        • 虛擬現實與增強現實:Mogao可以用于生成虛擬環境和互動元素,增強虛擬現實和增強現實的用戶體驗。
        • 醫療影像分析:Mogao能夠將不同模態的醫療影像(如MRI、CT、超聲波等)與文本描述相結合,提升疾病診斷的準確性和早期發現能力。

        常見問題

        • Mogao支持哪些輸入格式? Mogao支持文本和圖像的交錯輸入,用戶可以靈活選擇輸入內容。
        • 生成的圖像質量如何? Mogao可生成高達2K分辨率的圖像,細節表現優異,適用于多種風格。
        • 使用Mogao需要專業知識嗎? 不需要,Mogao設計為用戶友好,適合各類用戶使用。
        • 如何訪問Mogao的更多信息? 可以訪問Mogao的項目地址,查閱相關技術論文和應用示例。
        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲成av人在线观看网站 | 成年女人18级毛片毛片免费观看| 在线看无码的免费网站| 免费A级毛片av无码| 青青草免费在线视频| 亚洲日韩精品A∨片无码| 久久久久国色AV免费看图片| 免费观看a级毛片| 国产亚洲一区二区精品| 亚洲欧美熟妇综合久久久久| 中文字幕成人免费高清在线| 精品一区二区三区免费毛片爱 | 大胆亚洲人体视频| 亚洲天堂一区二区| 中国一级全黄的免费观看| 成人国产mv免费视频| 久久久久久a亚洲欧洲AV| 久久精品亚洲综合| 免费一级全黄少妇性色生活片| 在线观看免费av网站| 亚洲国产日韩在线视频| 国产精品自拍亚洲| 国产美女无遮挡免费网站| 亚洲综合综合在线| 日韩电影免费观看| 亚洲成AV人在线观看天堂无码| 一区二区视频在线免费观看| 日本一区二区三区日本免费| 亚洲小说区图片区| 黄页网站在线观看免费高清| 91亚洲导航深夜福利| 精品国产sm捆绑最大网免费站 | 亚洲国产亚洲片在线观看播放| 91av视频免费在线观看| 亚洲网站在线免费观看| 久久中文字幕免费视频| 亚洲色无码一区二区三区| 久久免费美女视频| 亚洲大香人伊一本线| 在线观看视频免费国语| 亚洲色大成网站www尤物|