Claude 3.7 Sonnet

Claude 3.7 Sonnet – Anthropic 推出的首款混合推理模型

Claude 3.7 Sonnet 是由 Anthropic 公司開發的全球首款混合推理模型，具備“標準模式”和“擴展思考模式”兩種操作方式。標準模式專注于快速生成響應，適用于日常對話和簡單任務；而擴展思考模式則通過逐步推理來解決更復雜的問題，尤其在數學、物理和編程領域表現卓越，編碼能力更是全面領先。

Claude 3.7 Sonnet是什么

Claude 3.7 Sonnet 是由 Anthropic 公司推出的創新混合推理模型，具有“標準模式”和“擴展思考模式”兩種運行方式。在標準模式下，該模型能夠迅速提供響應，適合日常交流和簡單任務的處理；而在擴展思考模式中，Claude 3.7 Sonnet通過逐步推理來應對復雜問題。該模型在數學、物理和編程等領域表現出色，特別是在編碼能力方面，展現了顯著的優勢。同時，Claude 3.7 Sonnet優化了模型的安全性，顯著減少了不必要的拒絕率。用戶可以通過 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 進行訪問。

Claude 3.7 Sonnet

Claude 3.7 Sonnet的主要功能

混合推理模式：
- 標準模式：快速響應，適合日常對話及簡單任務。
- 擴展思考模式：深入自我反思與逐步推理，適合處理復雜任務，如數學、物理、邏輯推理和編程。
復雜任務處理能力：在數學、物理和編程等需要強邏輯推理的領域表現卓越，基準測試中成績優異，如 SWE-bench Verified 和 TAU-bench 測試。
代碼協作能力：支持代碼編輯、測試執行等開發流程，并與 GitHub 集成，幫助開發者修復 Bug、開發新功能及進行全棧更新。
安全性提升：更準確地區分惡意請求與正常請求，相比前代模型減少不必要的拒絕（減少 45%）。
多平臺支持：適用于免費版、專業版、團隊版和企業版訂閱計劃，通過 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 訪問。
靈活的使用方式：用戶可在 API 使用中指定思考的 token 數量，輸出限制為 128K token。

Claude 3.7 Sonnet的性能表現

推理能力任務表現：
- 在數學、物理、指令執行和編程等任務中，擴展思考模式下的Claude 3.7 Sonnet表現卓越，相比上一代模型提升超過10%。
- SWE-bench：Claude 3.7 Sonnet創下70.3%的高分，刷新了SOTA（State of the Art）記錄。
編碼能力：
- SWE-bench Verified測試：Claude 3.7 Sonnet在編碼能力上顯著提升，能夠高效解決現實中的軟件問題。
多模態和智能體能力：
- OSWorld測試：Claude 3.7 Sonnet可通過虛擬鼠標點擊和鍵盤按鍵完成相關任務。
- Pokémon 游戲測試：Claude 3.7 Sonnet憑借擴展思考模式和智能體訓練獲得相應徽章，表現遠超早期版本。
測試時計算Scaling：
- 串行測試時計算：在生成最終輸出前，執行多個連續推理步驟，計算資源投入持續增加。在數學問題求解中，準確率隨著思考Token數量的增加呈對數增長。
- 并行測試時計算：通過采樣多個思維過程，選擇最佳結果（如多數表決或評分模型），顯著提升模型性能。在GPQA測試中，Claude 3.7 Sonnet基于并行計算達到了84.8%的總體得分（物理學部分高達96.5%）。