重新設計了主流 MLLM 的動態分辨率方案,針對手機硬件特性進行了深度系統優化
原標題:算法系統協同優化,vivo與港中文推出BlueLM-V-3B,手機秒變多模態AI專家
文章來源:機器之心
內容字數:9574字
BlueLM-V-3B:端側多模態模型的創新發展
近年來,隨著多模態大語言模型(MLLM)的快速發展,手機作為移動平臺的理想落地載體,成為了集成強大AI能力的關鍵。vivo AI研究院與香港中文大合研發的BlueLM-V-3B,正是為了克服手機在內存和計算能力上的限制而設計的一款端側多模態模型。
1. 模型特點與創新
BlueLM-V-3B的設計理念是算法與系統協同優化。該模型通過重新設計動態分辨率方案,針對手機硬件特性進行了深度優化,確保在移動設備上的高效流暢運行。其顯著特點包括:
– **算法與系統協同優化**:針對經典MLLM的動態分辨率方案進行改進,有效降低了圖像過度放大的問題。
– **卓越的模型性能**:在參數規模相似的模型中,BlueLM-V-3B表現出色,尤其在OpenCompass基準測試中取得了66.1的高分。
– **高效的移動端部署**:以天璣9300處理器為例,其內存需求僅為2.2GB,能夠快速處理高分辨率圖像。
2. 設計思路與技術實現
BlueLM-V-3B采用了寬松的長寬比選擇算法和硬件感知的系統設計。具體措施包括:
– **動態分辨率算法改進**:通過優化圖像信息的利用率,減少了圖像token長度,降低了處理延時。
– **圖像并行編碼與流水線并行處理**:采用并行策略和流水線設計來提升整體處理速度,優化NPU的計算能力。
– **模型量化與解耦處理**:通過混合參數精度降低內存使用,解耦圖像編碼與指令處理,提高了響應速度。
3. 訓練過程與數據集
BlueLM-V-3B的訓練分為兩個階段,利用開源數據集和內部數據集構建了包含250萬和6億條圖像-文本對的訓練數據。這種多樣化的數據增強了模型的能力,使其能夠在多種任務和模態上提升性能。
4. 實驗與結果
實驗結果顯示,BlueLM-V-3B在多個測評集上表現優異,尤其在OCR相關任務上取得了競爭力的成績,同時在部署效率和響應速度上也明顯優于同類模型。
總結
BlueLM-V-3B的開發展示了vivo與香港中文大學團隊在算法與系統設計方面的創新思維。未來,該團隊將繼續探索先進算法,提升端側模型的可擴展性,以適應更多手機設備,為用戶帶來更智能化的體驗。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺