<table id="s22ce"></table>

Skywork R1V

AI工具2個月前更新 AI工具集

745 0 0

Skywork R1V – 昆侖萬維開源的多模態思維鏈推理模型

Skywork R1V是昆侖萬維推出的首款開源工業多模態推理模型，具備卓越的視覺鏈式推理能力。該模型能夠針對視覺輸入進行多步邏輯推理，成功應對復雜的視覺任務，涵蓋視覺邏輯推理、數學問題解析、科學現象分析及醫學影像診斷等多個領域。Skywork R1V在眾多權威基準測試中表現出色，例如在MATH-500和AIME測試中分別獲得94.0和72.0的高分，明顯優于其他主流模型，推動了多模態推理模型的發展，有助于學術研究和產業應用的深入探索。

Skywork R1V是什么

Skywork R1V是昆侖萬維推出的首款工業界多模態思維鏈推理模型，具備強大的視覺鏈式推理能力。該模型能夠進行多步邏輯推理，解決復雜的視覺任務，如視覺邏輯推理、視覺數學問題、科學現象分析及醫學影像診斷等。Skywork R1V在多個權威基準測試中表現優異，如在MATH-500和AIME測試中分別獲得94.0和72.0的高分，顯著領先于其他主流模型。此開源模型推動了多模態推理領域的發展，助力學術研究與產業應用的探索。

Skywork R1V

Skywork R1V的主要功能

視覺鏈式推理：能夠對圖像和視頻等視覺輸入進行多步邏輯推理，逐步分析以得出復雜問題的答案。
數學與科學問題求解：識別和解析圖像中的數學問題或科學現象，結合推理能力逐步給出解決方案。
跨模態理解：將視覺信息與文本信息深度融合，實現更豐富的語義理解。
復雜視覺任務處理：處理諸如醫學影像診斷推理、藝術作品分析等復雜視覺任務。

Skywork R1V的技術原理

文本推理能力的多模態遷移：利用視覺投影器（Visual Projector），高效將文本推理能力遷移至視覺任務，無需重新訓練語言模型和視覺編碼器，保留模型在文本推理任務中的強大能力，同時處理視覺輸入。
多模態混合式訓練（Iterative SFT + GRPO）：結合迭代監督微調（Iterative SFT）和群組相對策略優化（GRPO）強化學習，分階段對齊視覺與文本表征，通過高質量數據與高難度數據的結合，反復迭代訓練，提升模型在跨模態任務中的表現，在視覺推理基準測試中達到或超越現有領先模型。
自適應長度思維鏈蒸餾：引入基于視覺-文本復雜度的自適應推理鏈長度控制機制，動態優化模型推理過程，結合多階段自蒸餾策略，避免模型“過度思考”，提升推理效率和質量。
三階段訓練方法：
- 初始對齊：使用輕量級視覺適配器（MLP）連接視覺編碼器和語言模型，在常規多模態數據上進行訓練，初步對齊視覺與語言表征。
- 推理能力遷移：將訓練完成的適配器與強推理語言模型連接，形成視覺推理模型，使其具備初步的視覺推理能力。
- 精準對齊：基于混合優化框架（Iterative SFT + GRPO）進一步精準對齊視覺和語言模態，增強模型的多模態推理能力。

Skywork R1V的性能表現

邏輯推理能力：
- 在MATH-500基準測試中，Skywork R1V取得94.0的高分，遠超其他同規模或更大規模的開源模型。
- 在AIME 2024基準測試中，Skywork R1V達到了72.0%的通過率。
- 在GPQA（General Physics Question Answering）基準測試中，Skywork R1V的通過率為61.6%。
視覺理解能力：
- 在MathVista（視覺數學推理）基準測試中，Skywork R1V獲得67.5分。
- 在MMMU（Multimodal Medical Understanding）基準測試中，Skywork R1V達到69.0分。