<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        理解生成協(xié)同促進(jìn)?華為諾亞提出ILLUME,15M數(shù)據(jù)實(shí)現(xiàn)多模態(tài)理解生成一體化

        以僅15M的圖文對(duì)數(shù)據(jù)用于圖文對(duì)齊,實(shí)現(xiàn)了在視覺理解、生成、編輯等多元任務(wù)上的出色表現(xiàn)。

        理解生成協(xié)同促進(jìn)?華為諾亞提出ILLUME,15M數(shù)據(jù)實(shí)現(xiàn)多模態(tài)理解生成一體化

        原標(biāo)題:理解生成協(xié)同促進(jìn)?華為諾亞提出ILLUME,15M數(shù)據(jù)實(shí)現(xiàn)多模態(tài)理解生成一體化
        文章來(lái)源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):4469字

        華為諾亞方舟實(shí)驗(yàn)室提出ILLUME:一款高效的多模態(tài)理解與生成一體化大模型

        機(jī)器之心報(bào)道,華為諾亞方舟實(shí)驗(yàn)室近期提出了一種名為ILLUME的統(tǒng)一多模態(tài)大模型,該模型致力于將視覺理解和生成能力融合到同一個(gè)框架中,實(shí)現(xiàn)了對(duì)多模態(tài)任務(wù)的全新詮釋。ILLUME以LLM為核心,采用“連續(xù)圖像輸入+離散圖像輸出”的架構(gòu),在僅使用約15M的圖文對(duì)數(shù)據(jù)的情況下,便在視覺理解、生成和編輯等多種任務(wù)上取得了優(yōu)異的表現(xiàn),其性能甚至可以與專用單任務(wù)模型相媲美。

        ILLUME 的主要貢獻(xiàn)

        1. 高效的訓(xùn)練方法:ILLUME在保持架構(gòu)可擴(kuò)展性和泛化性的前提下,通過(guò)合理的視覺詞表、訓(xùn)練策略和數(shù)據(jù)配比策略,僅用少量數(shù)據(jù)實(shí)現(xiàn)了在多種視覺任務(wù)上的出色表現(xiàn),超越了現(xiàn)有許多統(tǒng)一多模態(tài)模型,如Chameleon、Show-O和Janus。

        2. 自提升式多模態(tài)對(duì)齊策略:ILLUME提出了一種創(chuàng)新的自提升多模態(tài)對(duì)齊策略。該策略通過(guò)讓模型對(duì)自身生成的負(fù)樣本進(jìn)行內(nèi)省式評(píng)估,實(shí)現(xiàn)理解和生成能力的協(xié)同進(jìn)化。生成能力可以幫助模型更準(zhǔn)確地理解圖像,而理解能力則能反過(guò)來(lái)提升模型的生成精度,避免錯(cuò)誤。

        ILLUME 的關(guān)鍵設(shè)計(jì)

        1. 語(yǔ)義特征重建的視覺詞表:ILLUME采用語(yǔ)義特征重建的方式構(gòu)造視覺詞表,直接在高層語(yǔ)義空間中完成圖文對(duì)齊的特征學(xué)習(xí),這與傳統(tǒng)基于VQGAN的視覺詞表方法相比,能夠顯著加速模型的預(yù)訓(xùn)練過(guò)程,并提高圖文對(duì)齊的效率。

        2. 三階段訓(xùn)練策略:ILLUME采用三階段訓(xùn)練策略:第一階段進(jìn)行圖像重建,初始化模型參數(shù)并對(duì)齊輸入輸出模式;第二階段進(jìn)行圖文對(duì)齊預(yù)訓(xùn)練;第三階段對(duì)高質(zhì)量數(shù)據(jù)進(jìn)行微調(diào),以提升模型在多種視覺文本任務(wù)上的性能。

        ILLUME 的自提升多模態(tài)對(duì)齊策略

        該策略包含三個(gè)步驟:首先,模型自生成圖像數(shù)據(jù);其次,對(duì)生成的圖像進(jìn)行多維度評(píng)估,包括物體、數(shù)量、顏色和空間關(guān)系等;最后,將評(píng)估數(shù)據(jù)重新格式化并加入到第三階段訓(xùn)練中,從而強(qiáng)化模型的理解和生成能力。

        ILLUME 的實(shí)驗(yàn)結(jié)果

        ILLUME在多模態(tài)理解任務(wù)上取得了SOTA水平,尤其在文檔理解方面表現(xiàn)突出;在文圖生成任務(wù)上取得了與現(xiàn)有模型相當(dāng)?shù)慕Y(jié)果;并且能夠有效處理圖像編輯任務(wù),例如物體刪除、風(fēng)格遷移和圖像補(bǔ)充等。

        總結(jié)

        ILLUME 作為一款高效的多模態(tài)理解與生成一體化大模型,通過(guò)巧妙的架構(gòu)設(shè)計(jì)、訓(xùn)練策略和自提升式多模態(tài)對(duì)齊策略,在數(shù)據(jù)效率和模型性能方面都取得了顯著的突破。其在多模態(tài)理解、生成和編輯任務(wù)上的出色表現(xiàn),為構(gòu)建更強(qiáng)大、更通用的多模態(tài)人工智能系統(tǒng)奠定了堅(jiān)實(shí)的基礎(chǔ)。


        聯(lián)系作者

        文章來(lái)源:機(jī)器之心
        作者微信:
        作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 亚洲日韩区在线电影| 久草免费福利资源站| 亚洲xxxxxx| 亚洲国产精品成人精品无码区| 日韩人妻无码免费视频一区二区三区| 日韩电影免费在线观看| 在线播放国产不卡免费视频| 亚洲日韩国产欧美一区二区三区| 91天堂素人精品系列全集亚洲| 亚洲精品国产精品乱码不卡√ | 亚洲精品国产精品乱码不99| 免费一级毛片在线播放不收费| 男女超爽刺激视频免费播放| 久久A级毛片免费观看| 国产免费阿v精品视频网址| 一级做a爰片久久免费| 老司机午夜性生免费福利| 亚洲欧美国产欧美色欲| 麻豆狠色伊人亚洲综合网站| 亚洲性无码av在线| 亚洲高清美女一区二区三区| 亚洲∧v久久久无码精品| 亚洲av午夜福利精品一区| 亚洲国产无套无码av电影| 亚洲中文字幕无码久久2017| 亚洲午夜AV无码专区在线播放| 免费在线一级毛片| 亚洲?v女人的天堂在线观看| 亚洲欧洲尹人香蕉综合| 亚洲精品高清国产一久久| 午夜亚洲www湿好大| 久久亚洲AV成人出白浆无码国产| 久久久综合亚洲色一区二区三区 | 精品久久久久久亚洲综合网| 亚洲女女女同性video| 亚洲国产成人无码AV在线| 亚洲精品无码永久在线观看男男| 午夜亚洲WWW湿好爽| 色婷婷精品免费视频| 九九视频高清视频免费观看| 精品久久久久久国产免费了|