kimi推出的 k1 系列強化學習模型

產品名稱：k1 視覺思考模型
產品簡介：k1 視覺思考模型是kimi推出的k1系列強化學習AI模型，原生支持端到端圖像理解和思維鏈技術，將能力擴展到數學之外的更多基礎科學領域。k1模型在圖像理解、數學、物理、化學等學科的基準測試中表現優異，超過全球多個標桿模型（如OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet）。k1 視覺思考模型能直接處理圖像信息進行思考得出答案，無需借助外部OCR或視覺模型，提供完整的推理思維鏈，讓用戶看到模型思索答案的全過程。
詳細介紹：

k1 視覺思考模型是什么

k1 視覺思考模型是kimi推出的k1系列強化學習AI模型，原生支持端到端圖像理解和思維鏈技術，將能力擴展到數學之外的更多基礎科學領域。k1模型在圖像理解、數學、物理、化學等學科的基準測試中表現優異，超過全球多個標桿模型（如OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet）。k1 視覺思考模型能直接處理圖像信息進行思考得出答案，無需借助外部OCR或視覺模型，提供完整的推理思維鏈，讓用戶看到模型思索答案的全過程。k1 視覺思考模型基于預訓練和強化學習后訓練，優化字符識別能力，在 OCRBench 上得到 903 分的當前最好（state-of-the-art）結果，在 MathVista-testmini、MMMU-val 和 DocVQA 基準測試集上分數分別為 69.1、66.7 和 96.9，處于全球領先水平。

同時，Kimi 模型研發團隊推出針對基礎科學學科的標準化圖形測試集Science Vista，涵蓋不同難度的數理化圖片題目，從分布上與實際用戶需求較為匹配。測試集將開放給全行業。

kimi推出的 k1 系列強化學習模型

k1 視覺思考模型的主要功能

端到端圖像理解： k1 視覺思考模型能直接處理用戶輸入的圖像信息，進行深入的思考和分析，無需依賴外部的OCR技術或額外的視覺模型。
推理思維鏈展示：k1 視覺思考模型展示思考過程，即推理思維鏈（Chain of Thought， CoT），讓用戶能看到答案，還能看到模型得出答案的邏輯推理過程。
基礎科學能力泛化
- 數學能力：新的 k1 視覺思考模型，借助端到端的圖像理解能力，解鎖包括幾何圖形題在內更加全面的數學能力。
- 跨學科能力：模型的能力擴展到物理、化學等其他基礎科學領域，能理解和解決這些領域的復雜問題。
真實場景適應性：k1視覺思考模型在包含噪聲的真實場景下，如照片灰暗、圖像模糊、手寫字跡干擾等，k1 模型相比OpenAI 和 Anthropic 的視覺語言模型，有更顯著的領先優勢。
通用問題解決能力：k1視覺思考模型展現出更多通用能力，如解釋科學家手稿等，讓應用場景更加廣泛。

如何使用k1 視覺思考模型

下載或更新應用：確保手機或電腦上安裝最新版的Kimi智能助手APP，或者訪問Kimi的網頁版。
訪問Kimi視覺思考版：k1 視覺思考模型已陸續上線最新版「Kimi智能助手」的 Android 和 iPhone 手機APP以及網頁( kimi.com）。在最新版手機APP或網頁版 Kimi+ 頁面找到「Kimi 視覺思考版」。
上傳或拍照：用APP或網頁版中的拍照功能，直接拍攝想要分析的圖像，或從設備中上傳已有的圖片。
等待分析：提交圖像后，k1 視覺思考模型將開始處理圖像信息，進行深入的思考和分析。
查看結果和推理過程：Kimi視覺思考版會展示模型的推理思維鏈（Chain of Thought， CoT），用戶能看到模型得出答案的全過程。
交互和反饋：如果需要進一步的解釋或有其他問題，與Kimi進行交互，提供反饋或提出新的問題。

kimi推出的 k1 系列強化學習模型