<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Mogao

        AI工具12小時前更新 AI工具集
        0 0 0

        Mogao – 字節(jié)跳動Seed團隊推出的多模態(tài)理解與生成統(tǒng)一架構(gòu)

        Mogao

        Mogao是什么

        Mogao是字節(jié)跳動Seed團隊推出的一款交錯多模態(tài)生成基礎(chǔ)模型。它采用了雙視覺編碼器架構(gòu),結(jié)合變分自編碼器(VAE)和視覺變換器(ViT),在視覺理解和圖像生成的上下文對齊方面表現(xiàn)出色。Mogao引入交錯旋轉(zhuǎn)位置嵌入(IL-RoPE),有效捕捉圖像的二維空間位置信息以及多模態(tài)數(shù)據(jù)的時間位置關(guān)系,并通過多模態(tài)無分類器引導(dǎo)技術(shù)進一步提升生成質(zhì)量與一致性。

        Mogao的主要功能

        • 多模態(tài)理解與生成:Mogao能夠處理文本與圖像的交錯序列,實現(xiàn)優(yōu)質(zhì)的多模態(tài)理解與生成。在給定文本描述的情況下,能夠生成高質(zhì)量的圖像,同時也可以基于圖像生成相關(guān)的文本內(nèi)容。在多模態(tài)理解任務(wù)中,文本標(biāo)記關(guān)注歷史序列中的視覺變換器(ViT)標(biāo)記與文本標(biāo)記,從而更深入地理解圖像內(nèi)容。
        • 零樣本圖像編輯與組合生成:Mogao展現(xiàn)出強大的零樣本圖像編輯能力,無需額外訓(xùn)練即可修改和編輯圖像。具備組合生成能力,能夠?qū)⒉煌赜行ЫM合,生成具有高度一致性和連貫性的全新圖像。
        • 高質(zhì)量圖像生成:在圖像生成方面,Mogao表現(xiàn)卓越,涵蓋真實感、圖形設(shè)計、動漫和插圖等多種風(fēng)格,支持最高2K分辨率的圖像生成,能夠制作出高細(xì)節(jié)、高質(zhì)量的圖像。
        • 文本渲染能力:Mogao在文本渲染方面有顯著進步,文本可用率高達(dá)94%,有效解決了以往圖像生成中中文文本渲染的難題。

        Mogao的技術(shù)原理

        • 雙視覺編碼器:Mogao運用變分自編碼器(VAE)與視覺變換器(ViT)作為視覺編碼器。在圖像作為條件輸入時,提取VAE與ViT的視覺特征,并將其附加到歷史序列中。對于多模態(tài)理解任務(wù),文本標(biāo)記僅關(guān)注ViT標(biāo)記及文本標(biāo)記;對于多模態(tài)生成任務(wù),噪聲VAE標(biāo)記則會關(guān)注歷史序列中的所有標(biāo)記。
        • 深度融合架構(gòu):基于預(yù)訓(xùn)練的大語言模型(LLM),Mogao使用統(tǒng)一的自注意力層同時處理視覺與文本序列,前饋網(wǎng)絡(luò)(FFN)中則采用不同的多層感知機(MLP)來分別處理視覺與文本模態(tài)。
        • 交錯旋轉(zhuǎn)位置嵌入(IL-RoPE):該技術(shù)用于捕捉圖像的二維空間位置信息及多模態(tài)數(shù)據(jù)的時間位置關(guān)系,使模型能夠更好地處理交錯的文本與圖像序列。
        • 混合分辨率訓(xùn)練:在不同寬高比及分辨率的圖像上進行預(yù)訓(xùn)練與微調(diào),從低分辨率(如2562)到高分辨率(如20482),引入尺寸嵌入,使模型能夠感知目標(biāo)分辨率。
        • 跨模態(tài)RoPE:將文本token視作二維token,應(yīng)用二維RoPE,進一步增強視覺與文本token的對齊效果。
        • 后訓(xùn)練階段:包括持續(xù)訓(xùn)練(CT)、監(jiān)督微調(diào)(SFT)、人工反饋對齊(RLHF)和提示工程(PE),以提升模型的性能和可控性。
        • 缺陷感知型訓(xùn)練范式:引入缺陷檢測器,精確定位缺陷區(qū)域,通過掩碼隱含空間優(yōu)化,有效擴展訓(xùn)練數(shù)據(jù)集。
        • Hyper-SD與RayFlow:優(yōu)化生成路徑,引導(dǎo)每個數(shù)據(jù)點至特定實例的目標(biāo)分布,減少路徑碰撞,提高生成穩(wěn)定性和樣本多樣性。
        • 重要性采樣機制:學(xué)習(xí)在訓(xùn)練過程中關(guān)注最關(guān)鍵的時間步,支持高效的少步數(shù)采樣,確保生成質(zhì)量不受影響。

        Mogao的項目地址

        Mogao的應(yīng)用場景

        • 內(nèi)容創(chuàng)作:Mogao能夠根據(jù)文本描述生成高質(zhì)量圖像,也可以根據(jù)圖像生成相關(guān)文本描述,助力創(chuàng)作者實現(xiàn)靈感轉(zhuǎn)化。
        • 智能助手:Mogao結(jié)合語音、圖像和文本等多種模態(tài),實現(xiàn)更自然、更智能的人機交互體驗。
        • 圖像和文本的相互檢索:用戶可以通過輸入文本描述來查找相關(guān)圖像,或通過上傳圖像獲取相關(guān)文本描述,提升信息檢索效率。
        • 虛擬現(xiàn)實與增強現(xiàn)實:Mogao可以用于生成虛擬環(huán)境和互動元素,增強虛擬現(xiàn)實和增強現(xiàn)實的用戶體驗。
        • 醫(yī)療影像分析:Mogao能夠?qū)⒉煌B(tài)的醫(yī)療影像(如MRI、CT、超聲波等)與文本描述相結(jié)合,提升疾病診斷的準(zhǔn)確性和早期發(fā)現(xiàn)能力。

        常見問題

        • Mogao支持哪些輸入格式? Mogao支持文本和圖像的交錯輸入,用戶可以靈活選擇輸入內(nèi)容。
        • 生成的圖像質(zhì)量如何? Mogao可生成高達(dá)2K分辨率的圖像,細(xì)節(jié)表現(xiàn)優(yōu)異,適用于多種風(fēng)格。
        • 使用Mogao需要專業(yè)知識嗎? 不需要,Mogao設(shè)計為用戶友好,適合各類用戶使用。
        • 如何訪問Mogao的更多信息? 可以訪問Mogao的項目地址,查閱相關(guān)技術(shù)論文和應(yīng)用示例。
        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品无码成人片在线观看 | 午夜精品射精入后重之免费观看| 亚洲国产精品无码av| av无码久久久久不卡免费网站| 亚洲欧美不卡高清在线| 亚洲一区二区三区无码中文字幕| 2021在线永久免费视频| 国产亚洲福利一区二区免费看| 亚洲国产三级在线观看| 成人毛片免费视频| 国产麻豆成人传媒免费观看 | 99ee6热久久免费精品6| 狠狠综合亚洲综合亚洲色| 亚洲Av无码专区国产乱码DVD | 亚洲大片免费观看| 国产午夜亚洲精品不卡电影| 亚洲今日精彩视频| 一本色道久久88亚洲综合| 麻豆视频免费播放| 国产免费A∨在线播放| 精品国产成人亚洲午夜福利| 亚洲国产精品国自产拍AV| 国产一区二区视频免费| 青青青国产在线观看免费 | 亚洲精品成人片在线观看| 国产a视频精品免费观看| www免费黄色网| 亚洲精品第一国产综合亚AV| 亚洲精品免费观看| 免费无遮挡无码永久在线观看视频 | 最新亚洲人成网站在线观看| 亚洲国产美女在线观看 | 伊人久久亚洲综合| 日韩亚洲国产二区| 精品国产麻豆免费网站| 四虎在线最新永久免费| 性无码免费一区二区三区在线| 丰满妇女做a级毛片免费观看| 亚洲大成色www永久网址| 亚洲精品在线不卡| 亚洲精品无码不卡|