原標題:DeepSeek 怒搶視覺對話王座!DeepSeek-VL2 發布即開源,技術全公開
文章來源:夕小瑤科技說
內容字數:6315字
DeepSeek-VL2:國內大模型領域的“拼多多”
近年來,視覺模型領域發展迅猛,涌現出一批優秀的模型。國內大模型領域的黑馬DeepSeek近日也推出了其最新的視覺語言模型DeepSeek-VL2,并繼續堅持開源路線,在論文中公開了大量的技術細節。DeepSeek-VL2憑借其優異的性能和低廉的成本,引發了業界的廣泛關注。
1. 模型家族及性能
DeepSeek-VL2系列包含三個模型:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,其激活參數分別為1.0B、2.8B和4.5B。令人矚目的是,DeepSeek-VL2在參數量僅為現有模型一半的情況下,性能卻超越了Qwen2-VL和InternVL2等模型,實現了具有競爭力甚至最先進的性能。
2. 技術提升:三大核心改進
與上一代DeepSeek-VL相比,DeepSeek-VL2主要在以下三個方面進行了改進:
- 動態高分辨率視覺編碼策略:DeepSeek-VL2引入了動態平鋪視覺編碼策略,能夠有效處理不同縱橫比的高分辨率圖像,避免了固定大小編碼器的限制,在視覺定位、文檔/表格/圖表分析等任務中表現出色。通過動態切片平鋪方法,極大提升了計算效率。
- 改進的MOE機制:DeepSeek-VL2基于自研的DeepSeekMoE模型,該模型通過細粒度專家劃分、共享專家隔離、動態損失均衡和多頭潛在注意力機制等策略,提升了訓練和推理效率,有效控制了計算成本。
- 數據擴展與訓練微調:DeepSeek-VL2使用了比上一代模型多一倍的優質訓練數據,并引入了梗圖理解、視覺定位、視覺故事生成等新能力,增強了模型的泛化能力和性能。通過監督式微調,進一步提升了模型的指令遵循和對話能力。
3. 結果展示:多領域領先表現
DeepSeek-VL2在OCR、多模態對話、視覺定位等領域進行了測試,結果顯示其在激活參數更少的情況下實現了與現有模型相似或更好的性能。尤其在通用視覺問題回答、密集圖像描述、圖表理解等方面表現突出,展現了強大的多模態理解能力。此外,DeepSeek-VL2還展現了視覺定位和上下文視覺定位能力,以及一定的涌現能力。
4. 模型部署及DeepSeek公司背景
DeepSeek-VL2的三個版本分別可以部署在具有10GB、40GB和80GB內存的單個GPU上。DeepSeek公司由幻方量化孵化,擁有強大的算力資源和技術積累,這為其大模型研發提供了堅實的基礎。DeepSeek的目標不僅僅是復刻ChatGPT,更在于探索通用人工智能的更多未知領域。
總而言之,DeepSeek-VL2憑借其在性能、成本和技術創新上的優勢,在國內大模型領域展現出強大的競爭力,其開源策略也為社區發展貢獻力量。DeepSeek-VL2的出現,標志著國內大模型技術正在不斷進步,并向更低成本、更高效率的方向發展。
聯系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:低負擔解碼AI世界,硬核也可愛!聚集35萬AI發燒友、開發者和從業者,廣泛覆蓋互聯網大廠中高管、AI公司創始人和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189