<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        突破視覺界限:MetaMorph模型引領理解與生成的未來

        AIGC動態9個月前發布 機器之心
        289 0 0

        視覺理解與生成可以互惠互利,而不是相互對立。

        突破視覺界限:MetaMorph模型引領理解與生成的未來

        原標題:統一視覺理解與生成,MetaMorph模型問世,LeCun、謝賽寧、劉壯等參與
        文章來源:機器之心
        內容字數:11683字

        多模態大模型的進展與研究成果

        隨著多模態大模型(MLLM)在視覺理解領域的快速發展,研究者們正在探索如何通過微調大語言模型(LLM)來生成同樣有效的視覺信息。Meta與紐約大學的合作研究,揭示了LLM具有豐富的視覺知識,可以通過視覺指令調整方法(VPiT)實現視覺生成。

        1. 研究背景

        該研究的論文名為《MetaMorph: Multimodal Understanding and Generation via Instruction Tuning》,由AI領域知名學者參與。研究者們希望檢查LLM在視覺理解與生成方面的潛力,尤其是通過少量數據的微調來激活其視覺功能。

        2. 視覺預測指令調整(VPiT)

        VPiT是一種擴展現有指令調整方法的新技術,旨在讓LLM同時生成文本和視覺token。其通過預訓練的視覺編碼器嵌入和文本token作為輸入,輸出連續視覺token和離散文本token。研究表明,理解視覺輸入的能力與生成能力密切相關,且只需極少的額外訓練。

        3. 實驗成果

        研究者通過聯合訓練視覺理解和生成數據,發現理解數據的增加顯著提升了模型的視覺生成能力。相較于單獨使用生成數據,視覺理解數據的輔助作用更為顯著,顯示出視覺生成并非能力,而是相互依存的。

        4. MetaMorph模型的表現

        MetaMorph模型在多個視覺理解和生成基準上表現出競爭力,能有效利用LLM內在的知識生成高質量視覺token。此外,該模型在生成視覺token時能隱式執行推理,體現了其在復雜任務中的能力。

        5. 結論與啟示

        研究表明,使用指令調整訓練統一模型是可行的,LLM的視覺功能在少量樣本條件下也能被激活。這為未來的多模態模型開發提供了重要的見解,強調了理解數據在提升模型整體性能中的關鍵作用。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产一级淫片免费播放| 在线观着免费观看国产黄| 国产av天堂亚洲国产av天堂| 久青草国产免费观看| 国产偷窥女洗浴在线观看亚洲| 麻豆国产精品入口免费观看| 亚洲中文字幕乱码一区| 成人免费视频小说| 亚洲欧美日韩国产精品一区| 国产男女猛烈无遮挡免费视频网站| 国产精品观看在线亚洲人成网| 一区国严二区亚洲三区| 国产福利免费视频| 亚洲Av无码精品色午夜| 亚洲毛片在线免费观看| 亚洲性无码一区二区三区| 国产免费啪嗒啪嗒视频看看| 久久免费视频一区| 久久精品国产亚洲AV无码偷窥| 88xx成人永久免费观看| 亚洲日韩精品A∨片无码加勒比| 四虎影视在线永久免费看黄| 中文字幕免费在线视频| 亚洲春色另类小说| 免费看a级黄色片| gogo免费在线观看| 18亚洲男同志videos网站| 在线jyzzjyzz免费视频| 本道天堂成在人线av无码免费| 亚洲AV无码成人精品区蜜桃| 久久精品免费全国观看国产| 黄色免费在线网址| 日木av无码专区亚洲av毛片| 国产免费变态视频网址网站 | 亚洲av无码专区国产不乱码 | 亚洲精品无码久久久久久| 亚洲视频一区二区| 免费看片在线观看| 又大又硬又粗又黄的视频免费看 | 99ri精品国产亚洲| 国产三级免费观看|