<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        VLM多模態(tài)大模型的視覺編碼策略

        AIGC動態(tài)9個月前發(fā)布 智猩猩GenAI
        592 0 0

        為清晰理解眾多VLM對視覺輸入的處理方式,整理了幾篇代表性的工作。

        VLM多模態(tài)大模型的視覺編碼策略

        原標(biāo)題:VLM多模態(tài)大模型的視覺編碼策略
        文章來源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):2135字

        AI多模態(tài)視覺語言模型(VLM)在自動駕駛領(lǐng)域的應(yīng)用

        本文首先介紹了即將在北京舉辦的第四屆全球自動駕駛峰會,峰會將涵蓋自動駕駛的多個前沿領(lǐng)域,包括視覺語言模型等技術(shù)研討會。隨后,文章重點(diǎn)關(guān)注了視覺語言模型(VLM)在圖像處理方面的最新進(jìn)展,并對幾篇代表性論文進(jìn)行了總結(jié)和分析。

        1. 視覺語言模型(VLM)概述

        視覺語言模型 (VLM) 旨在融合視覺和語言信息,實現(xiàn)更高級別的多模態(tài)理解和生成能力。其核心在于高效的視覺編碼器,負(fù)責(zé)提取圖像中不同尺寸的視覺特征。本文著重分析了不同VLM在視覺編碼器設(shè)計上的差異。

        2. 不同VLM視覺編碼器的比較

        文章對六種代表性VLM的視覺編碼器進(jìn)行了比較,總結(jié)如下:

        1. InternVL: 使用大型視覺基礎(chǔ)模型InternViT-6B (基于原始ViT架構(gòu)),并通過一個8B的LLM進(jìn)行微調(diào)。
        2. LLaVA-OneVision: 采用AnyRes技術(shù),支持任意尺寸高分辨率圖像處理。對單圖進(jìn)行網(wǎng)格裁剪處理,多圖或視頻則逐圖處理。實驗表明,提高分辨率比增加token數(shù)量更有效。
        3. Long Context Transfer from Language to Vision: 提出UniRes技術(shù),相比AnyRes,去除了全圖縮略圖,對每個網(wǎng)格進(jìn)行2×2池化。
        4. Pixtral: 隨機(jī)初始化訓(xùn)練Pixtral-Vit,支持各種分辨率,并加入行結(jié)束標(biāo)記token和門控機(jī)制。利用相對旋轉(zhuǎn)位置編碼(RoPE-2D)處理不同尺寸圖像。
        5. Qwen2-VL: 類似Pixtral,采用2D-RoPE,并提出M-RoPE統(tǒng)一編碼圖像、視頻和文本位置信息。
        6. Idefics2: 使用NaVit視覺編碼器,支持動態(tài)分辨率,無需圖像分割,通過將不同圖像序列打包成一個長序列,并限制自注意力機(jī)制在當(dāng)前圖像序列內(nèi)應(yīng)用來處理不同尺寸的圖像。

        3. 視覺編碼器技術(shù)的演進(jìn)趨勢

        從上述VLM的視覺編碼器設(shè)計可以看出,研究者們不斷探索更高效、更靈活的方案,以應(yīng)對不同分辨率、不同類型(單圖、多圖、視頻)的視覺輸入。 AnyRes和UniRes等技術(shù)旨在高效處理高分辨率圖像,而RoPE-2D和M-RoPE等位置編碼技術(shù)則提升了模型對不同尺寸圖像的適應(yīng)性。動態(tài)分辨率處理能力也成為一個重要的發(fā)展方向。

        4. VLM在自動駕駛中的應(yīng)用前景

        VLM技術(shù)在自動駕駛領(lǐng)域具有巨大的應(yīng)用潛力。通過對道路場景圖像和文本信息的理解,VLM可以輔助自動駕駛系統(tǒng)進(jìn)行更準(zhǔn)確的環(huán)境感知、決策規(guī)劃和人機(jī)交互。例如,VLM可以用于理解交通標(biāo)志、路牌等信息,以及對復(fù)雜路況進(jìn)行語義理解,從而提升自動駕駛系統(tǒng)的安全性與可靠性。

        總而言之,VLM技術(shù)的快速發(fā)展為自動駕駛系統(tǒng)帶來了新的機(jī)遇,其在視覺感知、決策規(guī)劃等方面的應(yīng)用值得期待。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時搜羅生成式AI技術(shù)產(chǎn)品。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 无人在线观看完整免费版视频| 久久国产高潮流白浆免费观看| 精品久久洲久久久久护士免费 | 国产精品免费网站| 亚洲香蕉免费有线视频| 99久热只有精品视频免费看| 亚洲av综合色区| 2015日韩永久免费视频播放 | 一级做a爰片性色毛片免费网站| 亚洲AV无码成人精品区在线观看| eeuss免费天堂影院| 亚洲欧洲国产精品香蕉网| 91福利免费网站在线观看| 久久青草亚洲AV无码麻豆| 免费A级毛片在线播放| 亚洲乱码卡一卡二卡三| 成人毛片手机版免费看| 香蕉视频免费在线播放| 国产亚洲精品无码拍拍拍色欲| 国内精品一级毛片免费看| 久久精品国产亚洲av麻豆小说| 免费精品国偷自产在线在线| 亚洲色成人网站WWW永久四虎| 免费中文字幕不卡视频| 中文字幕免费人成乱码中国| 亚洲视频在线免费播放| 成年美女黄网站18禁免费| 深夜免费在线视频| 亚洲精品无码不卡| 免费的涩涩视频在线播放| 尤物视频在线免费观看| 亚洲视频2020| 国产国产成年年人免费看片| 99在线视频免费观看| 亚洲综合综合在线| 一区二区三区亚洲视频| 国产精品免费福利久久| 亚洲日本天堂在线| 亚洲AV无码专区在线播放中文 | 国产精品99爱免费视频| 亚洲色偷偷av男人的天堂|