DeepSeek 怒搶視覺對話王座！DeepSeek-VL2 發(fā)布即開源，技術(shù)全公開

原標(biāo)題：DeepSeek 怒搶視覺對話王座！DeepSeek-VL2 發(fā)布即開源，技術(shù)全公開
文章來源：夕小瑤科技說
內(nèi)容字?jǐn)?shù)：6315字

DeepSeek-VL2：國內(nèi)大模型領(lǐng)域的“拼多多”

近年來，視覺模型領(lǐng)域發(fā)展迅猛，涌現(xiàn)出一批優(yōu)秀的模型。國內(nèi)大模型領(lǐng)域的黑馬DeepSeek近日也推出了其最新的視覺語言模型DeepSeek-VL2，并繼續(xù)堅(jiān)持開源路線，在論文中公開了大量的技術(shù)細(xì)節(jié)。DeepSeek-VL2憑借其優(yōu)異的性能和低廉的成本，引發(fā)了業(yè)界的廣泛關(guān)注。

1. 模型家族及性能

DeepSeek-VL2系列包含三個(gè)模型：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，其激活參數(shù)分別為1.0B、2.8B和4.5B。令人矚目的是，DeepSeek-VL2在參數(shù)量僅為現(xiàn)有模型一半的情況下，性能卻超越了Qwen2-VL和InternVL2等模型，實(shí)現(xiàn)了具有競爭力甚至最先進(jìn)的性能。

2. 技術(shù)提升：三大核心改進(jìn)

與上一代DeepSeek-VL相比，DeepSeek-VL2主要在以下三個(gè)方面進(jìn)行了改進(jìn)：

動(dòng)態(tài)高分辨率視覺編碼策略：DeepSeek-VL2引入了動(dòng)態(tài)平鋪視覺編碼策略，能夠有效處理不同縱橫比的高分辨率圖像，避免了固定大小編碼器的限制，在視覺定位、文檔/表格/圖表分析等任務(wù)中表現(xiàn)出色。通過動(dòng)態(tài)切片平鋪方法，極大提升了計(jì)算效率。
改進(jìn)的MOE機(jī)制：DeepSeek-VL2基于自研的DeepSeekMoE模型，該模型通過細(xì)粒度專家劃分、共享專家隔離、動(dòng)態(tài)損失均衡和多頭潛在注意力機(jī)制等策略，提升了訓(xùn)練和推理效率，有效控制了計(jì)算成本。
數(shù)據(jù)擴(kuò)展與訓(xùn)練微調(diào)：DeepSeek-VL2使用了比上一代模型多一倍的優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)，并引入了梗圖理解、視覺定位、視覺故事生成等新能力，增強(qiáng)了模型的泛化能力和性能。通過監(jiān)督式微調(diào)，進(jìn)一步提升了模型的指令遵循和對話能力。

3. 結(jié)果展示：多領(lǐng)域領(lǐng)先表現(xiàn)

DeepSeek-VL2在OCR、多模態(tài)對話、視覺定位等領(lǐng)域進(jìn)行了測試，結(jié)果顯示其在激活參數(shù)更少的情況下實(shí)現(xiàn)了與現(xiàn)有模型相似或更好的性能。尤其在通用視覺問題回答、密集圖像描述、圖表理解等方面表現(xiàn)突出，展現(xiàn)了強(qiáng)大的多模態(tài)理解能力。此外，DeepSeek-VL2還展現(xiàn)了視覺定位和上下文視覺定位能力，以及一定的涌現(xiàn)能力。

4. 模型部署及DeepSeek公司背景

DeepSeek-VL2的三個(gè)版本分別可以部署在具有10GB、40GB和80GB內(nèi)存的單個(gè)GPU上。DeepSeek公司由幻方量化孵化，擁有強(qiáng)大的算力資源和技術(shù)積累，這為其大模型研發(fā)提供了堅(jiān)實(shí)的基礎(chǔ)。DeepSeek的目標(biāo)不僅僅是復(fù)刻ChatGPT，更在于探索通用人工智能的更多未知領(lǐng)域。

總而言之，DeepSeek-VL2憑借其在性能、成本和技術(shù)創(chuàng)新上的優(yōu)勢，在國內(nèi)大模型領(lǐng)域展現(xiàn)出強(qiáng)大的競爭力，其開源策略也為社區(qū)發(fā)展貢獻(xiàn)力量。DeepSeek-VL2的出現(xiàn)，標(biāo)志著國內(nèi)大模型技術(shù)正在不斷進(jìn)步，并向更低成本、更高效率的方向發(fā)展。

聯(lián)系作者

文章來源：夕小瑤科技說
作者微信：
作者簡介：低負(fù)擔(dān)解碼AI世界，硬核也可愛！聚集35萬AI發(fā)燒友、開發(fā)者和從業(yè)者，廣泛覆蓋互聯(lián)網(wǎng)大廠中高管、AI公司創(chuàng)始人和機(jī)構(gòu)投資人。一線作者來自清北、國內(nèi)外頂級AI實(shí)驗(yàn)室和大廠，兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作：zym5189

閱讀原文

# AIGC動(dòng)態(tài)# DeepSeek-VL2 # 多模態(tài)學(xué)習(xí)# 大模型競爭 # 開源模型 # 視覺對話

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

DeepSeek 怒搶視覺對話王座！DeepSeek-VL2 發(fā)布即開源，技術(shù)全公開

DeepSeek-VL2：國內(nèi)大模型領(lǐng)域的“拼多多”

1. 模型家族及性能

2. 技術(shù)提升：三大核心改進(jìn)

3. 結(jié)果展示：多領(lǐng)域領(lǐng)先表現(xiàn)

4. 模型部署及DeepSeek公司背景

聯(lián)系作者

北大開源全新圖像壓縮感知網(wǎng)絡(luò)：參數(shù)量、推理時(shí)間大幅節(jié)省，性能顯著提升 | 頂刊TPAMI

探索概率的幻影：我們?yōu)楹我廊粓?jiān)持使用它？

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

DeepSeek 怒搶視覺對話王座！DeepSeek-VL2 發(fā)布即開源，技術(shù)全公開

DeepSeek-VL2：國內(nèi)大模型領(lǐng)域的“拼多多”

1. 模型家族及性能

2. 技術(shù)提升：三大核心改進(jìn)

3. 結(jié)果展示：多領(lǐng)域領(lǐng)先表現(xiàn)

4. 模型部署及DeepSeek公司背景

聯(lián)系作者

北大開源全新圖像壓縮感知網(wǎng)絡(luò)：參數(shù)量、推理時(shí)間大幅節(jié)省，性能顯著提升 | 頂刊TPAMI

探索概率的幻影：我們?yōu)楹我廊粓?jiān)持使用它？

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

DeepSeek 怒搶視覺對話王座！DeepSeek-VL2 發(fā)布即開源，技術(shù)全公開

北大開源全新圖像壓縮感知網(wǎng)絡(luò)：參數(shù)量、推理時(shí)間大幅節(jié)省，性能顯著提升 | 頂刊TPAMI

探索概率的幻影：我們?yōu)楹我廊粓?jiān)持使用它？