<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        vivo端側(cè)多模態(tài)大模型BlueLM-V-3B解讀:基于LLaVA 架構(gòu),2.2GB 內(nèi)存即可運(yùn)行!

        AIGC動(dòng)態(tài)9個(gè)月前發(fā)布 智猩猩GenAI
        497 0 0

        開講預(yù)告12月17日晚7點(diǎn),# 智猩猩AI新青年講座 第257講開講!清華大學(xué)在讀博士生李镕輝將以《音樂驅(qū)動(dòng)的高質(zhì)量長序列舞蹈生成》為主題進(jìn)行直播講解,歡迎掃名~01引言隨著多模態(tài)大型語言模型的快速發(fā)展,如何在移動(dòng)設(shè)備上高效部署這些模型成為關(guān)鍵挑戰(zhàn)。Vivo提出BlueLM-V-3B,通過算法與系統(tǒng)協(xié)同設(shè)計(jì),實(shí)現(xiàn)了高性能的移動(dòng)端部署方案。02簡介Vivo提出的BlueLM-V-3B是一種專門為移動(dòng)設(shè)備(如手機(jī))優(yōu)化的多模態(tài)大型語言模型(MLLM)。通過算法和系統(tǒng)的協(xié)同設(shè)計(jì),從模型小型化、推理速度優(yōu)化和高效性能提升等角度,成功將 BlueLM-V-3B 部署到移動(dòng)平臺(tái)上。BlueLM-V-3B 在具有約 3B 參數(shù)規(guī)模的模型中實(shí)現(xiàn)了優(yōu)異的性能表現(xiàn),同時(shí)在手機(jī)端實(shí)現(xiàn)了高效的實(shí)時(shí)推理。Q1: 這篇文章想要解決什么問題?A1: 目標(biāo)是解決多模態(tài)大型語言模型在資源受限的移動(dòng)設(shè)備(如智能手機(jī))上部署的挑戰(zhàn),包括內(nèi)存占用高、推理速度慢和能效較低等問題。Q2: 這篇文章如何解決這些問題?A2: 文章提出了一種算法和系統(tǒng)協(xié)同設(shè)計(jì)方法,通過以下創(chuàng)新來解決問題:算法創(chuàng)新:提出寬松的寬高比匹配方法,優(yōu)化動(dòng)態(tài)分辨率策略,減少冗余圖像 token;通過 token 下采樣減少推理復(fù)雜度。系統(tǒng)優(yōu)化:針對(duì)手機(jī)硬件特性,設(shè)計(jì)了批量圖像編碼和流水線并行處理;采用分塊計(jì)算策略以提升長 token 序列的推理效率。模型設(shè)計(jì)與量化:基于經(jīng)典 LLaVA 架構(gòu),結(jié)合混合精度量化(如 INT4 和 INT8),實(shí)現(xiàn)模型小型化和高效推理。Q3: 文章所提出方法的效果如何?A3: BlueLM-V-3B 在性能和效率上均取得顯著提升:性能:在多模態(tài)基準(zhǔn)測(cè)試(如 OpenCompass 和 OCRBench)中,BlueLM-V-3B 以 3B 參數(shù)規(guī)模超越了部分 8B 模型,達(dá)到了當(dāng)前的 SOTA 水平(66.1 分)。效率:在聯(lián)發(fā)科天璣 9300 處理器上,僅需 2.2GB 內(nèi)存,推理速度達(dá) 24.4 token/s,顯著優(yōu)于同類方法。Q4: 文章所提方法還有哪些不足?A4: 文章提出的 BlueLM-V-3B 仍有以下局限性:適配范圍有限:當(dāng)前優(yōu)化主要針對(duì)特定硬件平臺(tái)(如天璣 9300),對(duì)其他設(shè)備的通用性有待探索。模型能力與大規(guī)模模型仍有差距:盡管在小參數(shù)量級(jí)中表現(xiàn)優(yōu)異,但與更大規(guī)模模型相比,生成質(zhì)量和多模態(tài)理解能力仍有限。多模態(tài)任務(wù)的覆蓋性:部分下游任務(wù)(如視頻處理、多語種生成)并未充分測(cè)試。論文地址:https://arxiv.org/abs/2411.1064003方法模型概覽BlueLM-V-3B模型通過多方面的創(chuàng)新設(shè)計(jì),實(shí)現(xiàn)了高效的性能和部署能力,主要體現(xiàn)在以下幾個(gè)方面:模型架構(gòu)BlueLM-V-3B基于經(jīng)典的LLaVA框架,模型由圖像編碼器(SigLIP ViT,擁有4億參數(shù),輸入圖像尺寸為384×384)、兩層MLP投影層和核心語言模型BlueLM-3B(2.7B參數(shù))組成。MLP投影層負(fù)責(zé)將圖像Token映射到大語言模型的特征空間。為了提升高分辨率圖像的處理能力,模型集成了動(dòng)態(tài)分辨率處理器,并通過token下采樣模塊降低推理復(fù)雜度,以應(yīng)對(duì)NPU在處理長Token時(shí)的性能限制。算法創(chuàng)新寬松的寬高比匹配:改進(jìn)傳統(tǒng)動(dòng)態(tài)分辨率方法,避免圖像過度放大,減少生成的圖像Token數(shù)量,從而提高訓(xùn)練和部署的效率。Token下采樣:通過下采樣模塊對(duì)圖像Token進(jìn)行降維,縮短輸入序列長度,減少推理資源消耗。系統(tǒng)優(yōu)化批量圖像編碼:通過并行處理多個(gè)圖像塊,提高圖像編碼器的推理速度。流水線并行:設(shè)計(jì)了在CPU和NPU之間的流水線并行方案,進(jìn)一步優(yōu)化圖像推理的效率。輸入Token分塊計(jì)算:為應(yīng)對(duì)NPU計(jì)算能力的限制,引入了分塊處理策略,每次并行處理固定數(shù)量的Token(如128個(gè)),平衡了效率和資源需求。模型量化混合精度量化:采用INT4和INT8進(jìn)行權(quán)重量化,同時(shí)使用FP16或INT16處理激活值,在保證模型精度的同時(shí)顯著減少內(nèi)存使用。解耦圖像編碼與指令處理:通過將圖像處理與語言處理解耦,減少了內(nèi)存占用峰值,并提升了整體推理效率。訓(xùn)練策略預(yù)訓(xùn)練階段:凍結(jié)圖像編碼器和語言模型,僅訓(xùn)練MLP投影層,賦予模型初步的多模態(tài)能力。微調(diào)階段:在6.45億圖像-文本對(duì)數(shù)據(jù)集上進(jìn)行全面微調(diào),涵蓋圖像描述、視覺問答(VQA)、OCR等任務(wù),增強(qiáng)模型的多模態(tài)理解能力。模型結(jié)構(gòu)BlueLM-V-3B基于LLaVA的經(jīng)典架構(gòu),經(jīng)過適當(dāng)調(diào)整以增強(qiáng)其在高分辨率圖像處理方面的能力。該架構(gòu)由圖像編碼器、MLP投影層和大語言模型組成(見圖2)。圖像編碼器采用SigLIP ViT,能夠處理384×384大小的輸入圖像;MLP投影層則將圖像的特征空間映射到語言模型的Token空間。為了應(yīng)對(duì)高分辨率圖像的處理,模型引入了動(dòng)態(tài)分辨率處理模塊,同時(shí)利用Token下采樣技術(shù)減小序列長度,降低部署復(fù)雜度。在訓(xùn)練過程中,圖像編碼器接收經(jīng)過動(dòng)態(tài)分辨率處理器處理的圖像,輸出的特征經(jīng)過Token下采樣器和MLP投影層,生成對(duì)應(yīng)的圖像Token。這些Token與用戶輸入的語言指令Token拼接后,用于模型訓(xùn)練。在推理過程中,圖像和文本Token以類似方式獲取,模型自回歸地生成后續(xù)Token。模型架構(gòu):BlueLM-V-3B基于經(jīng)典的LLaVA方法,因?yàn)樵谙惹暗墓ぷ髦校鏘nternVL 1.5和LLaVA-NeXT中已經(jīng)證明其有效。整體架構(gòu)如圖2所示。它由以下組件組成。圖2:BlueLM-V-3B模型架構(gòu)。BlueLM-V-3B的架構(gòu)遵循經(jīng)典的LLaVA。這里集成了一個(gè)動(dòng)態(tài)分辨率處理模塊(如LLaVA-NeXT和InternVL 1.5)來增強(qiáng)模型功能,并應(yīng)用token下采樣來降低部署復(fù)雜性。動(dòng)態(tài)分辨率的實(shí)現(xiàn)主要是為了解決高分辨率圖像帶來的計(jì)算復(fù)雜度問題,尤其是在移動(dòng)設(shè)備上,計(jì)算資源有限。動(dòng)態(tài)分辨率技術(shù)的目標(biāo)是根據(jù)圖像的實(shí)際需求靈活調(diào)整圖像分辨率,以減少計(jì)算量和內(nèi)存占用,同時(shí)保持足夠的圖像信息用于模型的推理任務(wù)。以下詳細(xì)闡述如何通過動(dòng)態(tài)分辨率和Token下采樣技術(shù),優(yōu)化高分辨率圖像在視覺語言模型(如BlueLM-V-3B)中的處理效率,尤其是在移動(dòng)設(shè)備上部署時(shí)的挑戰(zhàn)。動(dòng)態(tài)分辨率動(dòng)態(tài)分辨率旨在優(yōu)化高分辨率圖像的處理,避免直接對(duì)所有圖像采用固定尺寸(如384×384的簡單縮放),從而提升訓(xùn)練和推理的效率。問題:圖像過度放大早期方法(如LLaVA-NeXT和InternVL 1.5)采用動(dòng)態(tài)分辨率設(shè)計(jì),但在處理高分辨率圖像時(shí),會(huì)選擇較大的分辨率比例(Aspect Ratio, AR),導(dǎo)致:圖像分辨率過度放大:生成的圖像面積可能比原圖大4倍甚至25倍。訓(xùn)練和部署成本增加:放大的圖像生成更多的圖像patch(每個(gè)patch為384×384),直接增加了最終的image tokens數(shù)量,也提高了硬件計(jì)算負(fù)擔(dān)。例子:LLaVA-NeXT:給定一個(gè)394×390的圖像,選擇AR為2:2,生成768×768的圖像,面積放大為原來的4倍。InternVL 1.5:給定380×76的圖像,選擇AR為5:1,生成1920×384的圖像,面積放大為原來的25倍。這種過大的圖像放大通常不會(huì)提供額外的信息收益,但卻嚴(yán)重增加了訓(xùn)練和部署的復(fù)雜度。解決方案:放松的長寬比匹配為了解決圖像過度放大的問題,BlueLM-V-3B提出了一種放松的長寬比匹配方法(Relaxed Aspect Ratio Matching),核心思想是:引入閾值參數(shù)α:公式如下:當(dāng)Re ? Re,max > α ? Re,max,或者(Re,max ? Re) < α ? Re,max 且 Rw < Rw,min 時(shí),更新Re_max 和Rw_min。避免始終選擇更大分辨率的趨勢(shì),通過限制放大的程度。如果Re(有效分辨率)與Re,max(最大有效分辨率)之間的差異超過設(shè)定閾值,則不選取更大的分辨率。優(yōu)先選擇較小的長寬比:通過從較大的長寬比(如6:6)到較小的長寬比(如1:1)依次枚舉,優(yōu)先選擇總面積更小的組合。優(yōu)點(diǎn):減少了圖像的放大面積,使得輸出patch數(shù)量減少,從而降低了訓(xùn)練和部署的復(fù)雜性。改進(jìn)后的效果:在面對(duì)極端寬高比的圖像(如Fig. 3中的案例)時(shí),優(yōu)化后的方法能夠更加靈活地選擇合適的長寬比(如1:1),避免不必要的分辨率放大。系統(tǒng)優(yōu)化:批量圖像patch編碼與流水線并行為進(jìn)一步提高訓(xùn)練和推理效率,BlueLM-V-3B在動(dòng)態(tài)分辨率的基礎(chǔ)上進(jìn)行了系統(tǒng)級(jí)優(yōu)化:批量圖像patch編碼:在訓(xùn)練中,利用GPU的并行計(jì)算能力,將所有圖像patch批量處理,提升了編碼效率,速度提升約10%。推理時(shí),針對(duì)移動(dòng)設(shè)備的NPU(如MediaTek Dimensity 9300),采用固定批量大小(如4個(gè)patch)進(jìn)行分塊處理,進(jìn)一步降低了延遲。流水線并行:Conv2D層在CPU上處理。Vision Transformer塊在NPU上處理。將圖像patch的編碼過程設(shè)計(jì)為流水線操作:通過流水線隱藏不同模塊的執(zhí)行延遲,從而提高整體效率。Token下采樣盡管動(dòng)態(tài)分辨率減少了圖像面積,但高分辨率圖像仍然可能生成大量的tokens,尤其是在移動(dòng)設(shè)備部署時(shí),NPU的計(jì)算能力和上下文長度限制對(duì)這些tokens的處理提出了挑戰(zhàn)。為了應(yīng)對(duì)動(dòng)態(tài)分辨率生成的大量圖像tokens,BlueLM-V-3B提出了兩種主要優(yōu)化策略:基本Token下采樣(Token Downsampling)和分塊計(jì)算(Chunked Computing)。問題:Token數(shù)量過多以一個(gè)分辨率為2:4(例如手機(jī)屏幕)的圖像為例:圖像會(huì)被分割成9個(gè)patch(2×4的局部patch,加上1個(gè)全局縮略圖patch)。每個(gè)patch經(jīng)過SigLIP視覺編碼器后,生成729個(gè)tokens。總共的image tokens數(shù)量為:9 × 729 = 6561。這種數(shù)量的tokens:超出了移動(dòng)設(shè)備NPU的計(jì)算能力。可能超過語言模型的最大上下文長度(即,模型在一次推理中能夠處理的最大token數(shù)量)。因此,需要對(duì)image tokens進(jìn)行下采樣,減少其總長度。基本Token下采樣BlueLM-V-3B在SigLIP視覺編碼器中采用了VILA方法中的下采樣模塊:2×2 tokens合并:將每組2×2的tokens合并為一個(gè)token。合并后,使用一個(gè)線性層對(duì)信息進(jìn)行融合,確保下采樣后的tokens仍能保留足夠的圖像信息。下采樣效果:每個(gè)patch的tokens數(shù)量從729降低到196。對(duì)于2:4分辨率的9個(gè)patch,總image tokens數(shù)量從6561減少到9 × 196 = 1764。雖然下采樣有效降低了tokens數(shù)量,但約1764的tokens長度(加上用戶指令的文本tokens)仍然是移動(dòng)設(shè)備NPU的計(jì)算瓶頸。分塊計(jì)算為了進(jìn)一步優(yōu)化推理效率,BlueLM-V-3B設(shè)計(jì)了一種適合移動(dòng)設(shè)備的分塊計(jì)算(Chunked Computing)策略:問題:傳統(tǒng)并行處理與移動(dòng)設(shè)備限制不匹配:在GPU等高性能硬件上,通常對(duì)所有輸入tokens進(jìn)行全局并行處理,一次性完成計(jì)算。然而在移動(dòng)設(shè)備(如NPU)上,由于計(jì)算資源有限,全局并行處理會(huì)導(dǎo)致效率低下。解決方案:分塊計(jì)算:將輸入tokens劃分為較小的塊(例如每塊128個(gè)tokens),按塊進(jìn)行并行計(jì)算。每次只計(jì)算一塊tokens,計(jì)算完成后再處理下一塊,最終將所有塊的結(jié)果合并。優(yōu)點(diǎn):平衡并行與資源限制:分塊大小(如128個(gè)tokens)既能充分利用NPU的計(jì)算能力,又避免了全局并行的資源浪費(fèi)。適用于長序列:通過分塊方式,可以支持更長的輸入序列,而不直接受限于NPU的最大上下文長度。小結(jié):動(dòng)態(tài)分辨率與Token下采樣的結(jié)合BlueLM-V-3B通過動(dòng)態(tài)分辨率和Token下采樣的聯(lián)合設(shè)計(jì),實(shí)現(xiàn)了在高分辨率圖像處理中的高效性和靈活性,特別是在移動(dòng)設(shè)備上的部署中。其優(yōu)化流程總結(jié)如下:動(dòng)態(tài)分辨率處理:使用放松的長寬比匹配方法,避免圖像分辨率的過度放大。結(jié)合批量處理和流水線并行技術(shù),提高訓(xùn)練和推理效率。Token下采樣:使用2×2 tokens合并的方法,將圖像tokens數(shù)量從6561減少到1764。通過分塊計(jì)算,進(jìn)一步優(yōu)化了超過NPU計(jì)算能力的長序列處理。實(shí)際效果:顯著減少了圖像tokens的生成和處理成本。減輕了訓(xùn)練和部署的硬件壓力,尤其是在資源有限的移動(dòng)設(shè)備上。通過這些技術(shù),BlueLM-V-3B在視覺語言模型的高效性、可部署性和靈活性上實(shí)現(xiàn)了顯著提升。模型量化在前述設(shè)計(jì)和優(yōu)化的基礎(chǔ)上,BlueLM-V-3B模型被成功部署在聯(lián)發(fā)科天璣9300處理器上,充分利用設(shè)備性能,提供了一種既強(qiáng)大又高效的解決方案,適用于移動(dòng)環(huán)境下的模型運(yùn)行。混合精度量化:通過混合精度量化的應(yīng)用,進(jìn)一步減少了內(nèi)存占用并提升了推理速度。ViT和MLP投影層的權(quán)重采用了INT8精度,而大語言模型(LLM)的權(quán)重則采用INT4精度。這種組合在計(jì)算效率和模型精度之間取得了良好平衡。然而,激活值對(duì)量化的敏感度較高,因此推理過程中,LLM的激活值保持在INT16精度,ViT和MLP投影層的激活值則使用FP16精度,以確保模型性能的穩(wěn)健性。同時(shí),推理時(shí)KV緩存以INT8精度存儲(chǔ)。圖像編碼與指令處理的解耦:為了提升部署效率,模型初始化時(shí),ViT和大語言模型同時(shí)加載。用戶首先上傳圖片,由于多模態(tài)語言模型(MLLM)本地部署,上傳過程幾乎無需耗時(shí)。圖片上傳完成后,ViT立即開始處理圖片。與此同時(shí),用戶可以輸入指令,音頻格式的指令會(huì)先被轉(zhuǎn)換為文本。圖片處理完成后,用戶的指令將提交給大語言模型生成響應(yīng),此時(shí)ViT可以從內(nèi)存中釋放。這個(gè)并行處理過程(如圖6所示)減少了首次生成詞語的等待時(shí)間,提升了整體響應(yīng)速度,并將BlueLM-V-3B的最大內(nèi)存占用限制在2.2GB。04訓(xùn)練訓(xùn)練過程BlueLM-3B語言模型的訓(xùn)練分為兩個(gè)階段進(jìn)行。第一階段對(duì)MLP投影層進(jìn)行預(yù)訓(xùn)練,同時(shí)保持ViT和大語言模型固定不變。第二階段則利用大量圖像-文本配對(duì)數(shù)據(jù)對(duì)整個(gè)模型進(jìn)行完全微調(diào)。訓(xùn)練數(shù)據(jù)預(yù)訓(xùn)練階段:預(yù)訓(xùn)練階段旨在建立模型的基礎(chǔ)跨模態(tài)能力。該階段整合了LLaVA 55.8萬、ShareGPT4V 120萬和ALLaVA 70.8萬等開源數(shù)據(jù)集,構(gòu)建了一個(gè)包含250萬張圖像字幕對(duì)的綜合預(yù)訓(xùn)練數(shù)據(jù)集。微調(diào)階段:微調(diào)過程中構(gòu)建了一個(gè)包含6.45億張圖像-文本對(duì)的數(shù)據(jù)集,融合了開源和內(nèi)部數(shù)據(jù)集。該數(shù)據(jù)集涵蓋字幕生成、視覺問答、光學(xué)字符識(shí)別和純文本等多種下游任務(wù)和數(shù)據(jù)類型。表1詳細(xì)展示了數(shù)據(jù)類型的分布以及公開和內(nèi)部數(shù)據(jù)的比例。除開源數(shù)據(jù)外,還通過多個(gè)網(wǎng)站抓取了大量純文本數(shù)據(jù)和圖像-文本配對(duì),并通過人工創(chuàng)建補(bǔ)充了各類數(shù)據(jù)類別的圖像-文本配對(duì),以提升訓(xùn)練數(shù)據(jù)的多樣性。在數(shù)據(jù)處理方面,采用PyMuPDF庫將PDF文檔轉(zhuǎn)換為圖像-文本對(duì);使用Matplotlib將公式數(shù)據(jù)渲染為必要的表示形式;通過IMGKit庫將表格內(nèi)容和解決問題的數(shù)據(jù)從Markdown格式轉(zhuǎn)換為圖像。此外,通過手動(dòng)渲染大量多語言文字生成圖像-文本對(duì),增強(qiáng)了模型的多語言理解能力。在數(shù)據(jù)優(yōu)化方面,借助GPT4和Gemini Pro創(chuàng)建并修訂圖像說明和問答對(duì)。開源與自有數(shù)據(jù)的結(jié)合顯著提升了模型在各類任務(wù)和模態(tài)上的表現(xiàn),使其能夠從豐富多樣的樣本中進(jìn)行學(xué)習(xí)。05實(shí)驗(yàn)結(jié)果論文通過一系列實(shí)驗(yàn)驗(yàn)證了 BlueLM-V-3B 的性能和部署效率,以下為關(guān)鍵實(shí)驗(yàn)結(jié)果的總結(jié):寬松的寬高比匹配與傳統(tǒng)動(dòng)態(tài)分辨率方法(如 LLaVA-NeXT 和 InternVL 1.5)相比,寬松寬高比匹配減少了 29k 個(gè)案例中的圖像 token 數(shù)量,顯著提升了部署效率。在多個(gè)基準(zhǔn)測(cè)試中,改進(jìn)后的方法不僅減少了訓(xùn)練復(fù)雜度,還提升了任務(wù)準(zhǔn)確性,如在 OCR 任務(wù)中的表現(xiàn)優(yōu)于傳統(tǒng)動(dòng)態(tài)分辨率方法。多模態(tài)基準(zhǔn)測(cè)試在 OpenCompass 的 8 項(xiàng)任務(wù)中,BlueLM-V-3B 在 4 項(xiàng)上取得了最優(yōu)性能,平均分?jǐn)?shù)(66.1)超過了參數(shù)規(guī)模更大的 MiniCPM-V(8B)和 InternVL2(8B)。在 OCRBench 和 TextVQA 基準(zhǔn)測(cè)試中,BlueLM-V-3B 達(dá)到了與 SOTA 模型相當(dāng)?shù)乃剑瑫r(shí)顯著增強(qiáng)了多語言理解能力。部署效率圖像編碼:在天璣 9300 NPU 上,批量圖像塊編碼和流水線并行顯著降低了推理延遲。例如,2:4 分辨率下,使用 4 個(gè)并行圖像塊的推理速度最快,僅需約 2.06 秒完成圖像編碼。輸入 token 處理:分塊處理策略(每次 128 token)實(shí)現(xiàn)了推理效率和資源利用的平衡,達(dá)到了最低延遲和最高吞吐量。與 MiniCPM-V 的比較:與 MiniCPM-V(8B 模型)相比,BlueLM-V-3B 的推理延遲更短,token 吞吐量更高,充分證明了算法優(yōu)化的有效性。06總結(jié)Vivo提出了 BlueLM-V-3B,通過算法和系統(tǒng)的協(xié)同設(shè)計(jì),成功克服了多模態(tài)大型語言模型在移動(dòng)設(shè)備端部署的主要難題。BlueLM-V-3B 在 3B 參數(shù)規(guī)模下取得了優(yōu)異的性能表現(xiàn),同時(shí)在內(nèi)存占用和推理速度方面表現(xiàn)出色。具體貢獻(xiàn)包括:算法創(chuàng)新:改進(jìn)動(dòng)態(tài)分辨率方法,提出寬松的寬高比匹配策略和 token 下采樣模塊,優(yōu)化了圖像處理和推理效率。系統(tǒng)優(yōu)化:結(jié)合硬件特性,設(shè)計(jì)了批量圖像塊編碼、流水線并行和分塊計(jì)算策略,顯著提升了部署效率。模型小型化:通過混合精度量化和模塊解耦,成功將模型部署到手機(jī)上,僅需 2.2GB 內(nèi)存即可運(yùn)行。在聯(lián)發(fā)科天璣 9300 處理器上,推理速度達(dá) 24.4 token/s。BlueLM-V-3B 的提出為多模態(tài)大型語言模型在移動(dòng)設(shè)備上的高效部署提供了重要的解決方案。通過算法和系統(tǒng)的協(xié)同設(shè)計(jì),模型在資源受限的硬件平臺(tái)上實(shí)現(xiàn)了高效推理和強(qiáng)大性能,突破了手機(jī)端 MLLM 部署的多個(gè)瓶頸。這不僅為移動(dòng)環(huán)境中的人工智能應(yīng)用奠定了技術(shù)基礎(chǔ),還為未來的設(shè)備端多模態(tài)模型優(yōu)化提供了重要的借鑒意義,有望進(jìn)一步推動(dòng)多模態(tài)人工智能技術(shù)在日常生活中的普及,助力智能手機(jī)成為更強(qiáng)大、更便捷的多模態(tài) AI 工具。END點(diǎn)擊下方名片即刻關(guān)注我們

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 九九久久精品国产免费看小说| 亚洲精华国产精华精华液好用 | 久久亚洲春色中文字幕久久久| 曰批全过程免费视频在线观看无码| 国产亚洲一区二区在线观看| 中文无码成人免费视频在线观看| 伊人久久五月丁香综合中文亚洲| 日本免费电影一区| 一级中文字幕乱码免费| 久久精品国产亚洲αv忘忧草| 午夜免费福利影院| 亚州**色毛片免费观看| 亚洲国产成人一区二区三区 | 亚洲小说区图片区另类春色| 男人的天堂网免费网站| 亚洲人成电影在线观看青青| 国产精品无码一二区免费 | 日韩视频在线观看免费| 免费无毒a网站在线观看| 亚洲av中文无码乱人伦在线播放 | 国产免费拔擦拔擦8X高清在线人| 亚洲国产精品综合久久网各| 卡1卡2卡3卡4卡5免费视频| 一区二区三区在线免费| 亚洲国产精品无码中文lv| 亚洲手机中文字幕| 久久香蕉国产线看观看亚洲片| 亚洲精品久久久www| AV大片在线无码永久免费| 深夜A级毛片视频免费| 亚洲一久久久久久久久| 亚洲区视频在线观看| 亚洲尹人九九大色香蕉网站| 亚洲va久久久噜噜噜久久男同 | 情侣视频精品免费的国产| 黄色网站软件app在线观看免费| 亚洲avav天堂av在线网爱情| 亚洲日韩国产精品乱| 亚洲一区二区三区在线| 亚洲天堂中文字幕| 亚洲国产天堂久久综合|