InternVL3.5 – 上海AI Lab開源的多模態大模型
InternVL3.5:書生·萬象3.5,引領開源多模態大模型新紀元
InternVL3.5(書生·萬象3.5)是由上海人工智能實驗室推出的性開源多模態大模型。該模型在通用能力、推理效能以及部署效率上實現了全方位的飛躍,提供從10億到2410億參數的九種規格,滿足不同算力需求。其獨特之處在于,InternVL3.5是首個整合GPT-OSS語言模型基座的開源多模態大模型,并引入了稠密模型與專家混合模型(MoE)架構。通過創新的級聯式強化學習(Cascade RL)框架,以及“離線預熱-在線精調”的兩階段優化流程,InternVL3.5在多學科推理任務上表現卓越,旗艦模型InternVL3.5-241B-A28B在MMMU基準測試中以77.7分拔得開源模型頭籌,超越GPT-5。同時,動態視覺分辨率路由(ViR)和解耦部署框架(DvD)的引入,顯著提升了模型在高分辨率圖像處理時的響應速度和吞吐量,例如38B模型的吞吐量提升高達4.05倍。
核心亮點與功能概覽
InternVL3.5在多模態感知、推理、文本處理、GUI智能體、具身空間推理以及矢量圖形處理等多個維度均展現出領先實力:
- 卓越的多模態感知能力:在圖像、視頻問答等任務中表現搶眼,241B-A28B模型以74.1的平均得分,與GPT-5(74.0)不相上下,領跑開源界。
- 強大的多模態推理能力:在MMMU基準測試中,得分提升超過5個百分點,達到77.7分,確立了其在開源模型中的領先地位。
- 出色的文本處理能力:在AIME、GPQA、IFEval等一系列基準測試中,模型平均得分高達85.3,展現了其在復雜文本理解與生成方面的優勢。
- 進化的GUI智能體:顯著增強了跨平臺自動化操作能力,在ScreenSpot GUI定位任務中以92.9分遙遙領先。
- 精深的具身空間推理:擁有更強的泛化能力,能夠適應全新、復雜的具身場景,并支持可泛化的長程物體抓取。
- 高效的矢量圖形處理:在SGP-Bench上刷新了70.7分的開源記錄,為網頁圖形生成和工程圖紙解析等專業領域提供了強大支持。
技術基石:創新驅動的底層架構
InternVL3.5的強大性能源于其多項創新技術:
- 級聯式強化學習(Cascade RL):通過“離線預熱-在線精調”的精巧設計,利用混合偏好優化(MPO)和GSPO算法,實現推理能力的快速提升和訓練的穩定性。
- 動態視覺分辨率路由(ViR):智能地為圖像的不同區域分配不同壓縮率,確保關鍵信息的高分辨率呈現,從而在加速推理的同時,最大程度地保留模型性能。
- 解耦部署框架(DvD):通過將視覺編碼器與語言模型分離部署,并結合BF16精度特征傳輸與異步流水線技術,實現了視覺與語言處理的并行化,大幅提升了整體吞吐量。
- 多樣化的模型尺寸與架構:提供從10億到2410億參數的九種規格,支持稠密模型和專家混合模型(MoE),并率先集成GPT-OSS語言模型基座,滿足多樣化的應用需求。
- 多模態協同推理機制:通過深度融合視覺與語言等多種模態信息,顯著增強了模型處理復雜任務的能力,推動了多模態技術從“理解”到“行動”的轉變。
項目資源與在線體驗
您可以通過以下鏈接深入了解InternVL3.5的更多信息并進行體驗:
- Github倉庫:https://github.com/OpenGVLab/InternVL
- HuggingFace模型:https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
- 技術報告:https://huggingface.co/papers/2508.18265
- 在線體驗:通過書生大模型平臺進行嘗試。
廣泛的應用場景
InternVL3.5憑借其強大的多模態能力,在多個領域展現出廣闊的應用前景:
- 賦能辦公自動化:通過GUI智能體,實現跨平臺辦公流程的自動化,如數據錄入、文檔排版、郵件處理等,極大地提升工作效率。
- 驅動智能家居:利用具身空間推理能力,協助機器人進行家庭環境中的物品定位、路徑規劃和物理交互,例如優化智能清潔機器人的工作路徑。
- 革新教育輔導:結合多模態推理與文本能力,為學生提供個性化、智能化的學習支持,解答復雜的學科問題,提升學習體驗。
- 加速內容創作:利用多模態感知能力,自動生成圖像描述、視頻字幕等內容,助力內容創作者提升效率和創意表現力。
- 優化網頁設計與圖形生成:借助矢量圖形處理能力,輕松生成或編輯SVG矢量圖形,為網頁設計、圖標制作等提供高效、個性化的解決方案。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號