<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Mogao

        AI工具4個月前更新 AI工具集
        9 0 0

        Mogao – 字節跳動Seed團隊推出的多模態理解與生成統一架構

        Mogao

        Mogao是什么

        Mogao是字節跳動Seed團隊推出的一款交錯多模態生成基礎模型。它采用了雙視覺編碼器架構,結合變分自編碼器(VAE)和視覺變換器(ViT),在視覺理解和圖像生成的上下文對齊方面表現出色。Mogao引入交錯旋轉位置嵌入(IL-RoPE),有效捕捉圖像的二維空間位置信息以及多模態數據的時間位置關系,并通過多模態無分類器引導技術進一步提升生成質量與一致性。

        Mogao的主要功能

        • 多模態理解與生成:Mogao能夠處理文本與圖像的交錯序列,實現優質的多模態理解與生成。在給定文本描述的情況下,能夠生成高質量的圖像,同時也可以基于圖像生成相關的文本內容。在多模態理解任務中,文本標記關注歷史序列中的視覺變換器(ViT)標記與文本標記,從而更深入地理解圖像內容。
        • 零樣本圖像編輯與組合生成:Mogao展現出強大的零樣本圖像編輯能力,無需額外訓練即可修改和編輯圖像。具備組合生成能力,能夠將不同元素有效組合,生成具有高度一致性和連貫性的全新圖像。
        • 高質量圖像生成:在圖像生成方面,Mogao表現卓越,涵蓋真實感、圖形設計、動漫和插圖等多種風格,支持最高2K分辨率的圖像生成,能夠制作出高細節、高質量的圖像。
        • 文本渲染能力:Mogao在文本渲染方面有顯著進步,文本可用率高達94%,有效解決了以往圖像生成中中文文本渲染的難題。

        Mogao的技術原理

        • 雙視覺編碼器:Mogao運用變分自編碼器(VAE)與視覺變換器(ViT)作為視覺編碼器。在圖像作為條件輸入時,提取VAE與ViT的視覺特征,并將其附加到歷史序列中。對于多模態理解任務,文本標記僅關注ViT標記及文本標記;對于多模態生成任務,噪聲VAE標記則會關注歷史序列中的所有標記。
        • 深度融合架構:基于預訓練的大語言模型(LLM),Mogao使用統一的自注意力層同時處理視覺與文本序列,前饋網絡(FFN)中則采用不同的多層感知機(MLP)來分別處理視覺與文本模態。
        • 交錯旋轉位置嵌入(IL-RoPE):該技術用于捕捉圖像的二維空間位置信息及多模態數據的時間位置關系,使模型能夠更好地處理交錯的文本與圖像序列。
        • 混合分辨率訓練:在不同寬高比及分辨率的圖像上進行預訓練與微調,從低分辨率(如2562)到高分辨率(如20482),引入尺寸嵌入,使模型能夠感知目標分辨率。
        • 跨模態RoPE:將文本token視作二維token,應用二維RoPE,進一步增強視覺與文本token的對齊效果。
        • 后訓練階段:包括持續訓練(CT)、監督微調(SFT)、人工反饋對齊(RLHF)和提示工程(PE),以提升模型的性能和可控性。
        • 缺陷感知型訓練范式:引入缺陷檢測器,精確定位缺陷區域,通過掩碼隱含空間優化,有效擴展訓練數據集。
        • Hyper-SD與RayFlow:優化生成路徑,引導每個數據點至特定實例的目標分布,減少路徑碰撞,提高生成穩定性和樣本多樣性。
        • 重要性采樣機制:學習在訓練過程中關注最關鍵的時間步,支持高效的少步數采樣,確保生成質量不受影響。

        Mogao的項目地址

        Mogao的應用場景

        • 內容創作:Mogao能夠根據文本描述生成高質量圖像,也可以根據圖像生成相關文本描述,助力創作者實現靈感轉化。
        • 智能助手:Mogao結合語音、圖像和文本等多種模態,實現更自然、更智能的人機交互體驗。
        • 圖像和文本的相互檢索:用戶可以通過輸入文本描述來查找相關圖像,或通過上傳圖像獲取相關文本描述,提升信息檢索效率。
        • 虛擬現實與增強現實:Mogao可以用于生成虛擬環境和互動元素,增強虛擬現實和增強現實的用戶體驗。
        • 醫療影像分析:Mogao能夠將不同模態的醫療影像(如MRI、CT、超聲波等)與文本描述相結合,提升疾病診斷的準確性和早期發現能力。

        常見問題

        • Mogao支持哪些輸入格式? Mogao支持文本和圖像的交錯輸入,用戶可以靈活選擇輸入內容。
        • 生成的圖像質量如何? Mogao可生成高達2K分辨率的圖像,細節表現優異,適用于多種風格。
        • 使用Mogao需要專業知識嗎? 不需要,Mogao設計為用戶友好,適合各類用戶使用。
        • 如何訪問Mogao的更多信息? 可以訪問Mogao的項目地址,查閱相關技術論文和應用示例。
        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 中文字幕在线免费看线人| 国产婷婷综合丁香亚洲欧洲| 久久亚洲精品无码gv| 日韩视频免费在线观看| 国产亚洲精品a在线观看| 国产精品亚洲色图| 日本久久久免费高清| 亚洲日韩一区二区三区| 97在线观免费视频观看 | 亚洲精品国产字幕久久不卡| 一级做a爰片性色毛片免费网站| 日本黄页网站免费| 免费无毒a网站在线观看| 可以免费观看的一级毛片| 综合偷自拍亚洲乱中文字幕| 成人爱做日本视频免费| 免费播放美女一级毛片| 亚洲国产婷婷香蕉久久久久久| 一级做a爰全过程免费视频毛片| 亚洲日韩国产精品乱| 手机看片国产免费永久| 亚洲AV成人无码久久精品老人| 无码精品国产一区二区三区免费| 亚洲一区二区在线免费观看| 18禁免费无码无遮挡不卡网站| 亚洲综合一区国产精品| 国产免费午夜a无码v视频| 曰批免费视频播放免费| 中文字幕亚洲乱码熟女一区二区| 无码午夜成人1000部免费视频| 亚洲午夜成激人情在线影院| 国产精品无码素人福利免费| jizz在线免费观看| 亚洲电影中文字幕| 卡一卡二卡三在线入口免费| 一区二区三区免费视频网站| 亚洲一区免费观看| 免费看一级做a爰片久久| baoyu122.永久免费视频| 亚洲国产成人资源在线软件| 国产精品久免费的黄网站|