請問:OpenAI 和谷歌將如何應對?
原標題:中文比R1絲滑、玩寶可夢還賊溜?全球首個混合推理模型Claude 3.7 Sonnet太驚艷,網友直呼“孤獨求敗”!
文章來源:AI前線
內容字數:8779字
Anthropic發布Claude 3.7 Sonnet:可控思考時間的大模型
本文總結了Anthropic發布的Claude 3.7 Sonnet以及阿里云同步推出的QwQ推理模型系統。Claude 3.7 Sonnet的最大亮點在于允許用戶控制模型的“思考時間”,實現了近乎即時響應和長時間逐步思考兩種模式,并能在API中進行細粒度控制。
1. Claude 3.7 Sonnet 的核心創新
Claude 3.7 Sonnet將大型語言模型和推理模型合二為一,用戶可根據需求選擇模型的響應速度。擴展思考模式下,模型通過迭代式調用函數、響應環境變化等方式,顯著提升了在數學、物理、指令遵循、編程等領域的性能。Anthropic還開發了“思考預算”機制,用戶可控制模型的思考token數量,平衡回答質量、速度和成本。值得注意的是,Anthropic減少了對競賽類題目的專項優化,轉而關注更貼近實際應用場景的任務,尤其在編碼和前端網頁開發方面取得了顯著改進。同時發布的Claude Code命令行工具,進一步提升了開發效率。
2. Anthropic 的推理機制
Anthropic的擴展思考模式并非切換不同模型,而是通過“動作擴展”能力,讓同一個模型擁有更多思考時間和計算資源。在啟用推理能力時,采用“串行測試時計算”機制,通過增加計算資源實現深度思考。Anthropic也在探索“并行測試時計算”,例如通過多數/投票或自檢優化機制來提升性能。
3. Claude 3.7 Sonnet 的性能表現
在擴展思考模式下,Claude 3.7 Sonnet在研究生級推理任務上達到78.2%的準確率,超越了部分競品。在數學解題和編程方面也表現出色,尤其在SWE-bench Verified編程測試中,其通過率顯著高于OpenAI的o1和o3-mini模型以及DeepSeek R1。
4. 用戶評價與Claude Code
Hacker News上的用戶對Claude 3.7 Sonnet的易用性和在學習和工作中的幫助表示肯定,但也指出了服務穩定性方面的問題。Claude Code團隊回應稱目前不使用RAG技術,Agentic Search在代碼任務中表現更好。
5. 阿里云QwQ推理模型系統的發布
阿里云同步推出了QwQ推理模型系統,基于Qwen2.5-Max模型深度優化,在數學解析、代碼生成和智能體開發等領域表現出色。該系統整合了深度推理引擎和實時網絡信息檢索接口,并支持多種工具的并行調用。未來計劃開源模型參數并推出移動端應用。
6. 總結
Anthropic的Claude 3.7 Sonnet和阿里云的QwQ模型系統都代表了大模型推理能力的最新進展,兩者在功能和設計理念上各有側重,未來大模型的競爭將更加激烈,也更值得期待。
聯系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。