DeepEyes

DeepEyes – 小紅書聯合西安交大推出的多模態深度思考模型

DeepEyes

DeepEyes 是由小紅書團隊攜手西安交通大學傾力打造的多模態深度思考模型，它如同擁有“火眼金睛”，能夠像 OpenAI o3 一樣“用圖思考”。借助端到端強化學習，DeepEyes 擺脫了對監督微調（SFT）的依賴，通過動態調用圖像工具，如裁剪和縮放，精細化地感知和理解視覺細節。在視覺推理基準測試 V* Bench 上，DeepEyes 展現出高達 90.1% 的準確率，展現了其強大的視覺搜索和多模態推理能力。

DeepEyes：開啟“用圖思考”的智能時代

DeepEyes，這款由小紅書團隊與西安交通大合研發的創新型多模態深度思考模型，引領著視覺智能的新潮流。它的核心在于模擬人類的思考方式，通過“用圖思考”的能力，實現對視覺信息的深度理解，并結合文本信息進行精準推理。

核心功能：

圖像深度解讀：告別“看圖”的淺層理解，DeepEyes 能夠“用圖思考”，在推理過程中主動調用圖像工具，如裁剪和縮放，從而更精細地捕捉細節，提升理解的深度。
高效視覺搜索：即使在高分辨率圖像中，DeepEyes 也能迅速定位細小物體的蹤跡或模糊區域。通過裁剪和縮放等工具，它能對關鍵細節進行深入分析，顯著提高搜索的準確性。
減少幻覺，增強可靠性： DeepEyes 專注于圖像細節，有效降低了模型生成回答時出現幻覺的可能性，從而提升了答案的準確性和可靠性。
多模態融合推理：視覺與文本信息無縫融合，DeepEyes 具備強大的多模態推理能力，在處理復雜任務時游刃有余。
自主工具調用：模型能夠自主決定何時調用圖像工具，例如裁剪、縮放等，無需外部工具的輔助，實現更高效、更精準的推理。

了解更多：

想深入了解 DeepEyes 的技術細節和應用案例？歡迎訪問以下資源：

項目官網：https://visual-agent.github.io/
GitHub 代碼倉庫：https://github.com/Visual-Agent/DeepEyes
HuggingFace 模型庫：https://huggingface.co/ChenShawn/DeepEyes
技術論文（arXiv）：https://arxiv.org/pdf/2505.14362

應用場景：

DeepEyes 的應用前景廣闊，以下是幾個極具潛力的應用場景：

教育領域：輔助學生解析試卷中的圖表和幾何圖形，提供詳細的解題步驟，助力高效學習。
醫療影像分析：輔助醫生分析醫學影像，提高診斷的準確性和效率，為患者提供更精準的治療方案。
智能交通：實時分析路況圖像，為自動駕駛系統提供更準確的決策依據，提升交通安全水平。
安防監控：分析監控視頻，識別異常行為，增強公共安全，助力犯罪預防。
工業制造：在生產線上進行質量檢測和設備故障預測，提高生產效率，降低維護成本。

常見問題解答：

關于 DeepEyes，您可能還會關心以下問題：

DeepEyes 和其他視覺模型有什么不同？ DeepEyes 最大的特色在于“用圖思考”的能力，通過端到端強化學習和動態工具調用，實現了對視覺信息的深度理解和精準推理。
DeepEyes 的未來發展方向是什么？ DeepEyes 團隊將持續優化模型性能，探索更多應用場景，致力于將其打造成為更智能、更可靠的多模態視覺推理工具。
如何參與 DeepEyes 的開發和應用？ 歡迎訪問 DeepEyes 的 GitHub 倉庫，參與開源項目的貢獻。同時，也歡迎您將 DeepEyes 應用于您的項目中，共同推動視覺智能的發展。

閱讀原文