<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        vivo端側多模態大模型BlueLM-V-3B解讀:基于LLaVA 架構,2.2GB 內存即可運行!

        AIGC動態5個月前發布 智猩猩GenAI
        464 0 0

        開講預告12月17日晚7點,# 智猩猩AI新青年講座 第257講開講!清華大學在讀博士生李镕輝將以《音樂驅動的高質量長序列舞蹈生成》為主題進行直播講解,歡迎掃名~01引言隨著多模態大型語言模型的快速發展,如何在移動設備上高效部署這些模型成為關鍵挑戰。Vivo提出BlueLM-V-3B,通過算法與系統協同設計,實現了高性能的移動端部署方案。02簡介Vivo提出的BlueLM-V-3B是一種專門為移動設備(如手機)優化的多模態大型語言模型(MLLM)。通過算法和系統的協同設計,從模型小型化、推理速度優化和高效性能提升等角度,成功將 BlueLM-V-3B 部署到移動平臺上。BlueLM-V-3B 在具有約 3B 參數規模的模型中實現了優異的性能表現,同時在手機端實現了高效的實時推理。Q1: 這篇文章想要解決什么問題?A1: 目標是解決多模態大型語言模型在資源受限的移動設備(如智能手機)上部署的挑戰,包括內存占用高、推理速度慢和能效較低等問題。Q2: 這篇文章如何解決這些問題?A2: 文章提出了一種算法和系統協同設計方法,通過以下創新來解決問題:算法創新:提出寬松的寬高比匹配方法,優化動態分辨率策略,減少冗余圖像 token;通過 token 下采樣減少推理復雜度。系統優化:針對手機硬件特性,設計了批量圖像編碼和流水線并行處理;采用分塊計算策略以提升長 token 序列的推理效率。模型設計與量化:基于經典 LLaVA 架構,結合混合精度量化(如 INT4 和 INT8),實現模型小型化和高效推理。Q3: 文章所提出方法的效果如何?A3: BlueLM-V-3B 在性能和效率上均取得顯著提升:性能:在多模態基準測試(如 OpenCompass 和 OCRBench)中,BlueLM-V-3B 以 3B 參數規模超越了部分 8B 模型,達到了當前的 SOTA 水平(66.1 分)。效率:在聯發科天璣 9300 處理器上,僅需 2.2GB 內存,推理速度達 24.4 token/s,顯著優于同類方法。Q4: 文章所提方法還有哪些不足?A4: 文章提出的 BlueLM-V-3B 仍有以下局限性:適配范圍有限:當前優化主要針對特定硬件平臺(如天璣 9300),對其他設備的通用性有待探索。模型能力與大規模模型仍有差距:盡管在小參數量級中表現優異,但與更大規模模型相比,生成質量和多模態理解能力仍有限。多模態任務的覆蓋性:部分下游任務(如視頻處理、多語種生成)并未充分測試。論文地址:https://arxiv.org/abs/2411.1064003方法模型概覽BlueLM-V-3B模型通過多方面的創新設計,實現了高效的性能和部署能力,主要體現在以下幾個方面:模型架構BlueLM-V-3B基于經典的LLaVA框架,模型由圖像編碼器(SigLIP ViT,擁有4億參數,輸入圖像尺寸為384×384)、兩層MLP投影層和核心語言模型BlueLM-3B(2.7B參數)組成。MLP投影層負責將圖像Token映射到大語言模型的特征空間。為了提升高分辨率圖像的處理能力,模型集成了動態分辨率處理器,并通過token下采樣模塊降低推理復雜度,以應對NPU在處理長Token時的性能限制。算法創新寬松的寬高比匹配:改進傳統動態分辨率方法,避免圖像過度放大,減少生成的圖像Token數量,從而提高訓練和部署的效率。Token下采樣:通過下采樣模塊對圖像Token進行降維,縮短輸入序列長度,減少推理資源消耗。系統優化批量圖像編碼:通過并行處理多個圖像塊,提高圖像編碼器的推理速度。流水線并行:設計了在CPU和NPU之間的流水線并行方案,進一步優化圖像推理的效率。輸入Token分塊計算:為應對NPU計算能力的限制,引入了分塊處理策略,每次并行處理固定數量的Token(如128個),平衡了效率和資源需求。模型量化混合精度量化:采用INT4和INT8進行權重量化,同時使用FP16或INT16處理激活值,在保證模型精度的同時顯著減少內存使用。解耦圖像編碼與指令處理:通過將圖像處理與語言處理解耦,減少了內存占用峰值,并提升了整體推理效率。訓練策略預訓練階段:凍結圖像編碼器和語言模型,僅訓練MLP投影層,賦予模型初步的多模態能力。微調階段:在6.45億圖像-文本對數據集上進行全面微調,涵蓋圖像描述、視覺問答(VQA)、OCR等任務,增強模型的多模態理解能力。模型結構BlueLM-V-3B基于LLaVA的經典架構,經過適當調整以增強其在高分辨率圖像處理方面的能力。該架構由圖像編碼器、MLP投影層和大語言模型組成(見圖2)。圖像編碼器采用SigLIP ViT,能夠處理384×384大小的輸入圖像;MLP投影層則將圖像的特征空間映射到語言模型的Token空間。為了應對高分辨率圖像的處理,模型引入了動態分辨率處理模塊,同時利用Token下采樣技術減小序列長度,降低部署復雜度。在訓練過程中,圖像編碼器接收經過動態分辨率處理器處理的圖像,輸出的特征經過Token下采樣器和MLP投影層,生成對應的圖像Token。這些Token與用戶輸入的語言指令Token拼接后,用于模型訓練。在推理過程中,圖像和文本Token以類似方式獲取,模型自回歸地生成后續Token。模型架構:BlueLM-V-3B基于經典的LLaVA方法,因為在先前的工作中,例如InternVL 1.5和LLaVA-NeXT中已經證明其有效。整體架構如圖2所示。它由以下組件組成。圖2:BlueLM-V-3B模型架構。BlueLM-V-3B的架構遵循經典的LLaVA。這里集成了一個動態分辨率處理模塊(如LLaVA-NeXT和InternVL 1.5)來增強模型功能,并應用token下采樣來降低部署復雜性。動態分辨率的實現主要是為了解決高分辨率圖像帶來的計算復雜度問題,尤其是在移動設備上,計算資源有限。動態分辨率技術的目標是根據圖像的實際需求靈活調整圖像分辨率,以減少計算量和內存占用,同時保持足夠的圖像信息用于模型的推理任務。以下詳細闡述如何通過動態分辨率和Token下采樣技術,優化高分辨率圖像在視覺語言模型(如BlueLM-V-3B)中的處理效率,尤其是在移動設備上部署時的挑戰。動態分辨率動態分辨率旨在優化高分辨率圖像的處理,避免直接對所有圖像采用固定尺寸(如384×384的簡單縮放),從而提升訓練和推理的效率。問題:圖像過度放大早期方法(如LLaVA-NeXT和InternVL 1.5)采用動態分辨率設計,但在處理高分辨率圖像時,會選擇較大的分辨率比例(Aspect Ratio, AR),導致:圖像分辨率過度放大:生成的圖像面積可能比原圖大4倍甚至25倍。訓練和部署成本增加:放大的圖像生成更多的圖像patch(每個patch為384×384),直接增加了最終的image tokens數量,也提高了硬件計算負擔。例子:LLaVA-NeXT:給定一個394×390的圖像,選擇AR為2:2,生成768×768的圖像,面積放大為原來的4倍。InternVL 1.5:給定380×76的圖像,選擇AR為5:1,生成1920×384的圖像,面積放大為原來的25倍。這種過大的圖像放大通常不會提供額外的信息收益,但卻嚴重增加了訓練和部署的復雜度。解決方案:放松的長寬比匹配為了解決圖像過度放大的問題,BlueLM-V-3B提出了一種放松的長寬比匹配方法(Relaxed Aspect Ratio Matching),核心思想是:引入閾值參數α:公式如下:當Re ? Re,max > α ? Re,max,或者(Re,max ? Re) < α ? Re,max 且 Rw < Rw,min 時,更新Re_max 和Rw_min。避免始終選擇更大分辨率的趨勢,通過限制放大的程度。如果Re(有效分辨率)與Re,max(最大有效分辨率)之間的差異超過設定閾值,則不選取更大的分辨率。優先選擇較小的長寬比:通過從較大的長寬比(如6:6)到較小的長寬比(如1:1)依次枚舉,優先選擇總面積更小的組合。優點:減少了圖像的放大面積,使得輸出patch數量減少,從而降低了訓練和部署的復雜性。改進后的效果:在面對極端寬高比的圖像(如Fig. 3中的案例)時,優化后的方法能夠更加靈活地選擇合適的長寬比(如1:1),避免不必要的分辨率放大。系統優化:批量圖像patch編碼與流水線并行為進一步提高訓練和推理效率,BlueLM-V-3B在動態分辨率的基礎上進行了系統級優化:批量圖像patch編碼:在訓練中,利用GPU的并行計算能力,將所有圖像patch批量處理,提升了編碼效率,速度提升約10%。推理時,針對移動設備的NPU(如MediaTek Dimensity 9300),采用固定批量大?。ㄈ?個patch)進行分塊處理,進一步降低了延遲。流水線并行:Conv2D層在CPU上處理。Vision Transformer塊在NPU上處理。將圖像patch的編碼過程設計為流水線操作:通過流水線隱藏不同模塊的執行延遲,從而提高整體效率。Token下采樣盡管動態分辨率減少了圖像面積,但高分辨率圖像仍然可能生成大量的tokens,尤其是在移動設備部署時,NPU的計算能力和上下文長度限制對這些tokens的處理提出了挑戰。為了應對動態分辨率生成的大量圖像tokens,BlueLM-V-3B提出了兩種主要優化策略:基本Token下采樣(Token Downsampling)和分塊計算(Chunked Computing)。問題:Token數量過多以一個分辨率為2:4(例如手機屏幕)的圖像為例:圖像會被分割成9個patch(2×4的局部patch,加上1個全局縮略圖patch)。每個patch經過SigLIP視覺編碼器后,生成729個tokens。總共的image tokens數量為:9 × 729 = 6561。這種數量的tokens:超出了移動設備NPU的計算能力??赡艹^語言模型的最大上下文長度(即,模型在一次推理中能夠處理的最大token數量)。因此,需要對image tokens進行下采樣,減少其總長度?;綯oken下采樣BlueLM-V-3B在SigLIP視覺編碼器中采用了VILA方法中的下采樣模塊:2×2 tokens合并:將每組2×2的tokens合并為一個token。合并后,使用一個線性層對信息進行融合,確保下采樣后的tokens仍能保留足夠的圖像信息。下采樣效果:每個patch的tokens數量從729降低到196。對于2:4分辨率的9個patch,總image tokens數量從6561減少到9 × 196 = 1764。雖然下采樣有效降低了tokens數量,但約1764的tokens長度(加上用戶指令的文本tokens)仍然是移動設備NPU的計算瓶頸。分塊計算為了進一步優化推理效率,BlueLM-V-3B設計了一種適合移動設備的分塊計算(Chunked Computing)策略:問題:傳統并行處理與移動設備限制不匹配:在GPU等高性能硬件上,通常對所有輸入tokens進行全局并行處理,一次性完成計算。然而在移動設備(如NPU)上,由于計算資源有限,全局并行處理會導致效率低下。解決方案:分塊計算:將輸入tokens劃分為較小的塊(例如每塊128個tokens),按塊進行并行計算。每次只計算一塊tokens,計算完成后再處理下一塊,最終將所有塊的結果合并。優點:平衡并行與資源限制:分塊大?。ㄈ?28個tokens)既能充分利用NPU的計算能力,又避免了全局并行的資源浪費。適用于長序列:通過分塊方式,可以支持更長的輸入序列,而不直接受限于NPU的最大上下文長度。小結:動態分辨率與Token下采樣的結合BlueLM-V-3B通過動態分辨率和Token下采樣的聯合設計,實現了在高分辨率圖像處理中的高效性和靈活性,特別是在移動設備上的部署中。其優化流程總結如下:動態分辨率處理:使用放松的長寬比匹配方法,避免圖像分辨率的過度放大。結合批量處理和流水線并行技術,提高訓練和推理效率。Token下采樣:使用2×2 tokens合并的方法,將圖像tokens數量從6561減少到1764。通過分塊計算,進一步優化了超過NPU計算能力的長序列處理。實際效果:顯著減少了圖像tokens的生成和處理成本。減輕了訓練和部署的硬件壓力,尤其是在資源有限的移動設備上。通過這些技術,BlueLM-V-3B在視覺語言模型的高效性、可部署性和靈活性上實現了顯著提升。模型量化在前述設計和優化的基礎上,BlueLM-V-3B模型被成功部署在聯發科天璣9300處理器上,充分利用設備性能,提供了一種既強大又高效的解決方案,適用于移動環境下的模型運行?;旌暇攘炕和ㄟ^混合精度量化的應用,進一步減少了內存占用并提升了推理速度。ViT和MLP投影層的權重采用了INT8精度,而大語言模型(LLM)的權重則采用INT4精度。這種組合在計算效率和模型精度之間取得了良好平衡。然而,激活值對量化的敏感度較高,因此推理過程中,LLM的激活值保持在INT16精度,ViT和MLP投影層的激活值則使用FP16精度,以確保模型性能的穩健性。同時,推理時KV緩存以INT8精度存儲。圖像編碼與指令處理的解耦:為了提升部署效率,模型初始化時,ViT和大語言模型同時加載。用戶首先上傳圖片,由于多模態語言模型(MLLM)本地部署,上傳過程幾乎無需耗時。圖片上傳完成后,ViT立即開始處理圖片。與此同時,用戶可以輸入指令,音頻格式的指令會先被轉換為文本。圖片處理完成后,用戶的指令將提交給大語言模型生成響應,此時ViT可以從內存中釋放。這個并行處理過程(如圖6所示)減少了首次生成詞語的等待時間,提升了整體響應速度,并將BlueLM-V-3B的最大內存占用限制在2.2GB。04訓練訓練過程BlueLM-3B語言模型的訓練分為兩個階段進行。第一階段對MLP投影層進行預訓練,同時保持ViT和大語言模型固定不變。第二階段則利用大量圖像-文本配對數據對整個模型進行完全微調。訓練數據預訓練階段:預訓練階段旨在建立模型的基礎跨模態能力。該階段整合了LLaVA 55.8萬、ShareGPT4V 120萬和ALLaVA 70.8萬等開源數據集,構建了一個包含250萬張圖像字幕對的綜合預訓練數據集。微調階段:微調過程中構建了一個包含6.45億張圖像-文本對的數據集,融合了開源和內部數據集。該數據集涵蓋字幕生成、視覺問答、光學字符識別和純文本等多種下游任務和數據類型。表1詳細展示了數據類型的分布以及公開和內部數據的比例。除開源數據外,還通過多個網站抓取了大量純文本數據和圖像-文本配對,并通過人工創建補充了各類數據類別的圖像-文本配對,以提升訓練數據的多樣性。在數據處理方面,采用PyMuPDF庫將PDF文檔轉換為圖像-文本對;使用Matplotlib將公式數據渲染為必要的表示形式;通過IMGKit庫將表格內容和解決問題的數據從Markdown格式轉換為圖像。此外,通過手動渲染大量多語言文字生成圖像-文本對,增強了模型的多語言理解能力。在數據優化方面,借助GPT4和Gemini Pro創建并修訂圖像說明和問答對。開源與自有數據的結合顯著提升了模型在各類任務和模態上的表現,使其能夠從豐富多樣的樣本中進行學習。05實驗結果論文通過一系列實驗驗證了 BlueLM-V-3B 的性能和部署效率,以下為關鍵實驗結果的總結:寬松的寬高比匹配與傳統動態分辨率方法(如 LLaVA-NeXT 和 InternVL 1.5)相比,寬松寬高比匹配減少了 29k 個案例中的圖像 token 數量,顯著提升了部署效率。在多個基準測試中,改進后的方法不僅減少了訓練復雜度,還提升了任務準確性,如在 OCR 任務中的表現優于傳統動態分辨率方法。多模態基準測試在 OpenCompass 的 8 項任務中,BlueLM-V-3B 在 4 項上取得了最優性能,平均分數(66.1)超過了參數規模更大的 MiniCPM-V(8B)和 InternVL2(8B)。在 OCRBench 和 TextVQA 基準測試中,BlueLM-V-3B 達到了與 SOTA 模型相當的水平,同時顯著增強了多語言理解能力。部署效率圖像編碼:在天璣 9300 NPU 上,批量圖像塊編碼和流水線并行顯著降低了推理延遲。例如,2:4 分辨率下,使用 4 個并行圖像塊的推理速度最快,僅需約 2.06 秒完成圖像編碼。輸入 token 處理:分塊處理策略(每次 128 token)實現了推理效率和資源利用的平衡,達到了最低延遲和最高吞吐量。與 MiniCPM-V 的比較:與 MiniCPM-V(8B 模型)相比,BlueLM-V-3B 的推理延遲更短,token 吞吐量更高,充分證明了算法優化的有效性。06總結Vivo提出了 BlueLM-V-3B,通過算法和系統的協同設計,成功克服了多模態大型語言模型在移動設備端部署的主要難題。BlueLM-V-3B 在 3B 參數規模下取得了優異的性能表現,同時在內存占用和推理速度方面表現出色。具體貢獻包括:算法創新:改進動態分辨率方法,提出寬松的寬高比匹配策略和 token 下采樣模塊,優化了圖像處理和推理效率。系統優化:結合硬件特性,設計了批量圖像塊編碼、流水線并行和分塊計算策略,顯著提升了部署效率。模型小型化:通過混合精度量化和模塊解耦,成功將模型部署到手機上,僅需 2.2GB 內存即可運行。在聯發科天璣 9300 處理器上,推理速度達 24.4 token/s。BlueLM-V-3B 的提出為多模態大型語言模型在移動設備上的高效部署提供了重要的解決方案。通過算法和系統的協同設計,模型在資源受限的硬件平臺上實現了高效推理和強大性能,突破了手機端 MLLM 部署的多個瓶頸。這不僅為移動環境中的人工智能應用奠定了技術基礎,還為未來的設備端多模態模型優化提供了重要的借鑒意義,有望進一步推動多模態人工智能技術在日常生活中的普及,助力智能手機成為更強大、更便捷的多模態 AI 工具。END點擊下方名片即刻關注我們

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲毛片在线免费观看| 国产A在亚洲线播放| 亚洲一区二区三区91| 99精品视频免费观看| 亚洲AV日韩AV永久无码绿巨人 | 亚洲熟妇无码AV| 日韩免费一区二区三区在线播放| 亚洲欧洲日产国码二区首页| 中文字幕亚洲免费无线观看日本 | 亚洲国产精品第一区二区| 久久青青草原国产精品免费| 久久精品国产亚洲AV电影 | 免费a在线观看播放| 人人爽人人爽人人片A免费| 亚洲AV无码一区二三区| 中文在线免费看视频| 久久久久亚洲AV无码专区首| 久久不见久久见免费视频7| 亚洲五月综合缴情婷婷| 国产成人精品男人免费| 一级毛片在线完整免费观看| 亚洲成A人片在线观看无码不卡| 91精品免费观看| 亚洲欧美一区二区三区日产| 亚洲国产高清在线一区二区三区| 大地影院MV在线观看视频免费| 亚洲精品资源在线| 国产午夜鲁丝片AV无码免费| 国产精品成人69XXX免费视频| 亚洲色图校园春色| 国产三级免费电影| 99精品视频在线免费观看| 亚洲色大成网站WWW国产| 久久久久无码专区亚洲av| 99国产精品永久免费视频 | 美女裸免费观看网站| 亚洲V无码一区二区三区四区观看| 永久免费AV无码国产网站| 农村寡妇一级毛片免费看视频| 久久亚洲精品中文字幕| 无码不卡亚洲成?人片|