產(chǎn)品名稱:DeepSeek-VL2
產(chǎn)品簡(jiǎn)介:DeepSeek-VL2是DeepSeek最新開源的一系列大型混合專家(Mixture-of-Experts,簡(jiǎn)稱MoE)視覺語言模型,在前代 DeepSeek-VL 的基礎(chǔ)上進(jìn)行了顯著改進(jìn)。DeepSeek-VL2 在多種任務(wù)上展現(xiàn)出卓越的能力,包括但不限于視覺問題回答、光學(xué)字符識(shí)別、文檔/表格/圖表理解以及視覺定位。
詳細(xì)介紹:
DeepSeek-VL2是什么
DeepSeek-VL2是DeepSeek最新開源的一系列大型混合專家(Mixture-of-Experts,簡(jiǎn)稱MoE)視覺語言模型,在前代 DeepSeek-VL 的基礎(chǔ)上進(jìn)行了顯著改進(jìn)。DeepSeek-VL2 在多種任務(wù)上展現(xiàn)出卓越的能力,包括但不限于視覺問題回答、光學(xué)字符識(shí)別、文檔/表格/圖表理解以及視覺定位。模型系列包括三個(gè)版本:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2,分別擁有 1.0B、2.8B 和 4.5B 的激活參數(shù)。DeepSeek-VL2 在保持相似或更少激活參數(shù)的情況下,與現(xiàn)有的開源密集型和基于 MoE 的模型相比,實(shí)現(xiàn)了競(jìng)爭(zhēng)性或最先進(jìn)的性能。模型于 2024 年 12 月 13 日正式發(fā)布。支持高達(dá) 1152×1152 的分辨率和 1:9 或 9:1 的極端長(zhǎng)寬比,適配更多應(yīng)用場(chǎng)景。DeepSeek-VL2 通過學(xué)習(xí)更多科研文檔數(shù)據(jù),理解各種科研圖表的能力。能通過 Plot2Code 功能,根據(jù)圖像生成 Python 代碼。
DeepSeek-VL2的主要功能
- 動(dòng)態(tài)分辨率支持:DeepSeek-VL2能處理高達(dá)1152×1152分辨率的圖像,支持1:9或9:1的極端長(zhǎng)寬比,適配多種應(yīng)用場(chǎng)景。
- 圖表理解:通過學(xué)習(xí)科研文檔數(shù)據(jù),DeepSeek-VL2能輕松理解各種科研圖表。
- Plot2Code:模型具備圖像理解和代碼生成的能力,可以根據(jù)圖像生成Python代碼。
- 梗圖識(shí)別:DeepSeek-VL2能解析各種Meme(梗圖),擁有更深層次的理解能力。
- Visual Grounding:模型能進(jìn)行零樣本(Zero-shot)視覺定位,根據(jù)自然語言描述在圖像中找到相應(yīng)的物體。
- Visual Storytelling:DeepSeek-VL2能將多張圖像串聯(lián)起來,形成視覺故事。
DeepSeek-VL2的技術(shù)原理
- 多頭潛在注意力(MLA):DeepSeek-VL2 在注意力機(jī)制上采用了 MLA,基于低秩鍵值聯(lián)合壓縮來消除推理時(shí)鍵值緩存的瓶頸,支持高效的推理。
- DeepSeekMoE 架構(gòu):在前饋網(wǎng)絡(luò)(Feed-Forward Networks,F(xiàn)FNs)中,DeepSeek-VL2 采用了 DeepSeekMoE 架構(gòu),這是一種高性能的 MoE 架構(gòu),能在降低成本的同時(shí)訓(xùn)練更強(qiáng)大的模型。
- 經(jīng)濟(jì)高效的訓(xùn)練和推理:DeepSeek-VL2 在預(yù)訓(xùn)練階段使用了 8.1 萬億 token 的多樣化和高質(zhì)量語料庫,通過監(jiān)督式微調(diào)(Supervised Fine-Tuning,SFT)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)來充分發(fā)揮模型的能力。與 DeepSeek 67B 相比,DeepSeek-VL2 在訓(xùn)練成本上節(jié)省了 42.5%,減少了 93.3% 的 KV 緩存,將最大生成吞吐量提高了 5.76 倍。
- 支持長(zhǎng)上下文窗口:DeepSeek-VL2 在?
Needle In A Haystack
(NIAH)測(cè)試中表現(xiàn)出色,支持長(zhǎng)達(dá) 128K 的上下文窗口長(zhǎng)度。
DeepSeek-VL2的項(xiàng)目地址
- Github倉庫:https://github.com/deepseek-ai/DeepSeek-VL2
- HuggingFace模型庫:https://huggingface.co/deepseek-ai/deepseek-vl2
DeepSeek-VL2的應(yīng)用場(chǎng)景
- 機(jī)器人:通過 DeepSeek-VL2 的模型,可以實(shí)現(xiàn)與用戶的自然語言交互。
- 圖像描述:模型能根據(jù)圖像內(nèi)容生成描述性文本。
- 代碼生成:DeepSeek-VL2 能根據(jù)用戶的需求生成代碼,適用在編程和軟件開發(fā)領(lǐng)域。