DeepSeek最新開源的MoE視覺語言模型系列

產(chǎn)品名稱：DeepSeek-VL2
產(chǎn)品簡(jiǎn)介：DeepSeek-VL2是DeepSeek最新開源的一系列大型混合專家（Mixture-of-Experts，簡(jiǎn)稱MoE）視覺語言模型，在前代 DeepSeek-VL 的基礎(chǔ)上進(jìn)行了顯著改進(jìn)。DeepSeek-VL2 在多種任務(wù)上展現(xiàn)出卓越的能力，包括但不限于視覺問題回答、光學(xué)字符識(shí)別、文檔/表格/圖表理解以及視覺定位。
詳細(xì)介紹：

DeepSeek-VL2是什么

DeepSeek-VL2是DeepSeek最新開源的一系列大型混合專家（Mixture-of-Experts，簡(jiǎn)稱MoE）視覺語言模型，在前代 DeepSeek-VL 的基礎(chǔ)上進(jìn)行了顯著改進(jìn)。DeepSeek-VL2 在多種任務(wù)上展現(xiàn)出卓越的能力，包括但不限于視覺問題回答、光學(xué)字符識(shí)別、文檔/表格/圖表理解以及視覺定位。模型系列包括三個(gè)版本：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2，分別擁有 1.0B、2.8B 和 4.5B 的激活參數(shù)。DeepSeek-VL2 在保持相似或更少激活參數(shù)的情況下，與現(xiàn)有的開源密集型和基于 MoE 的模型相比，實(shí)現(xiàn)了競(jìng)爭(zhēng)性或最先進(jìn)的性能。模型于 2024 年 12 月 13 日正式發(fā)布。支持高達(dá) 1152×1152 的分辨率和 1:9 或 9:1 的極端長(zhǎng)寬比，適配更多應(yīng)用場(chǎng)景。DeepSeek-VL2 通過學(xué)習(xí)更多科研文檔數(shù)據(jù)，理解各種科研圖表的能力。能通過 Plot2Code 功能，根據(jù)圖像生成 Python 代碼。

DeepSeek-VL2的主要功能

動(dòng)態(tài)分辨率支持：DeepSeek-VL2能處理高達(dá)1152×1152分辨率的圖像，支持1:9或9:1的極端長(zhǎng)寬比，適配多種應(yīng)用場(chǎng)景。
圖表理解：通過學(xué)習(xí)科研文檔數(shù)據(jù)，DeepSeek-VL2能輕松理解各種科研圖表。
Plot2Code：模型具備圖像理解和代碼生成的能力，可以根據(jù)圖像生成Python代碼。
梗圖識(shí)別：DeepSeek-VL2能解析各種Meme（梗圖），擁有更深層次的理解能力。
Visual Grounding：模型能進(jìn)行零樣本（Zero-shot）視覺定位，根據(jù)自然語言描述在圖像中找到相應(yīng)的物體。
Visual Storytelling：DeepSeek-VL2能將多張圖像串聯(lián)起來，形成視覺故事。

DeepSeek-VL2的技術(shù)原理

多頭潛在注意力（MLA）：DeepSeek-VL2 在注意力機(jī)制上采用了 MLA，基于低秩鍵值聯(lián)合壓縮來消除推理時(shí)鍵值緩存的瓶頸，支持高效的推理。
DeepSeekMoE 架構(gòu)：在前饋網(wǎng)絡(luò)（Feed-Forward Networks，F(xiàn)FNs）中，DeepSeek-VL2 采用了 DeepSeekMoE 架構(gòu)，這是一種高性能的 MoE 架構(gòu)，能在降低成本的同時(shí)訓(xùn)練更強(qiáng)大的模型。
經(jīng)濟(jì)高效的訓(xùn)練和推理：DeepSeek-VL2 在預(yù)訓(xùn)練階段使用了 8.1 萬億 token 的多樣化和高質(zhì)量語料庫，通過監(jiān)督式微調(diào)（Supervised Fine-Tuning，SFT）和強(qiáng)化學(xué)習(xí)（Reinforcement Learning，RL）來充分發(fā)揮模型的能力。與 DeepSeek 67B 相比，DeepSeek-VL2 在訓(xùn)練成本上節(jié)省了 42.5%，減少了 93.3% 的 KV 緩存，將最大生成吞吐量提高了 5.76 倍。
支持長(zhǎng)上下文窗口：DeepSeek-VL2 在?Needle In A Haystack（NIAH）測(cè)試中表現(xiàn)出色，支持長(zhǎng)達(dá) 128K 的上下文窗口長(zhǎng)度。