vivo攜手港中文推出BlueLM-V-3B:手機瞬間化身多模態(tài)AI大師!
重新設(shè)計了主流 MLLM 的動態(tài)分辨率方案,針對手機硬件特性進行了深度系統(tǒng)優(yōu)化
原標題:算法系統(tǒng)協(xié)同優(yōu)化,vivo與港中文推出BlueLM-V-3B,手機秒變多模態(tài)AI專家
文章來源:機器之心
內(nèi)容字數(shù):9574字
BlueLM-V-3B:端側(cè)多模態(tài)模型的創(chuàng)新發(fā)展
近年來,隨著多模態(tài)大語言模型(MLLM)的快速發(fā)展,手機作為移動平臺的理想落地載體,成為了集成強大AI能力的關(guān)鍵。vivo AI研究院與香港中文大合研發(fā)的BlueLM-V-3B,正是為了克服手機在內(nèi)存和計算能力上的限制而設(shè)計的一款端側(cè)多模態(tài)模型。
1. 模型特點與創(chuàng)新
BlueLM-V-3B的設(shè)計理念是算法與系統(tǒng)協(xié)同優(yōu)化。該模型通過重新設(shè)計動態(tài)分辨率方案,針對手機硬件特性進行了深度優(yōu)化,確保在移動設(shè)備上的高效流暢運行。其顯著特點包括:
– **算法與系統(tǒng)協(xié)同優(yōu)化**:針對經(jīng)典MLLM的動態(tài)分辨率方案進行改進,有效降低了圖像過度放大的問題。
– **卓越的模型性能**:在參數(shù)規(guī)模相似的模型中,BlueLM-V-3B表現(xiàn)出色,尤其在OpenCompass基準測試中取得了66.1的高分。
– **高效的移動端部署**:以天璣9300處理器為例,其內(nèi)存需求僅為2.2GB,能夠快速處理高分辨率圖像。
2. 設(shè)計思路與技術(shù)實現(xiàn)
BlueLM-V-3B采用了寬松的長寬比選擇算法和硬件感知的系統(tǒng)設(shè)計。具體措施包括:
– **動態(tài)分辨率算法改進**:通過優(yōu)化圖像信息的利用率,減少了圖像token長度,降低了處理延時。
– **圖像并行編碼與流水線并行處理**:采用并行策略和流水線設(shè)計來提升整體處理速度,優(yōu)化NPU的計算能力。
– **模型量化與解耦處理**:通過混合參數(shù)精度降低內(nèi)存使用,解耦圖像編碼與指令處理,提高了響應(yīng)速度。
3. 訓(xùn)練過程與數(shù)據(jù)集
BlueLM-V-3B的訓(xùn)練分為兩個階段,利用開源數(shù)據(jù)集和內(nèi)部數(shù)據(jù)集構(gòu)建了包含250萬和6億條圖像-文本對的訓(xùn)練數(shù)據(jù)。這種多樣化的數(shù)據(jù)增強了模型的能力,使其能夠在多種任務(wù)和模態(tài)上提升性能。
4. 實驗與結(jié)果
實驗結(jié)果顯示,BlueLM-V-3B在多個測評集上表現(xiàn)優(yōu)異,尤其在OCR相關(guān)任務(wù)上取得了競爭力的成績,同時在部署效率和響應(yīng)速度上也明顯優(yōu)于同類模型。
總結(jié)
BlueLM-V-3B的開發(fā)展示了vivo與香港中文大學(xué)團隊在算法與系統(tǒng)設(shè)計方面的創(chuàng)新思維。未來,該團隊將繼續(xù)探索先進算法,提升端側(cè)模型的可擴展性,以適應(yīng)更多手機設(shè)備,為用戶帶來更智能化的體驗。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺