中文比R1絲滑、玩寶可夢還賊溜?全球首個(gè)混合推理模型Claude 3.7 Sonnet太驚艷,網(wǎng)友直呼“孤獨(dú)求敗”!
請問:OpenAI 和谷歌將如何應(yīng)對?
原標(biāo)題:中文比R1絲滑、玩寶可夢還賊溜?全球首個(gè)混合推理模型Claude 3.7 Sonnet太驚艷,網(wǎng)友直呼“孤獨(dú)求敗”!
文章來源:AI前線
內(nèi)容字?jǐn)?shù):8779字
Anthropic發(fā)布Claude 3.7 Sonnet:可控思考時(shí)間的大模型
本文總結(jié)了Anthropic發(fā)布的Claude 3.7 Sonnet以及阿里云同步推出的QwQ推理模型系統(tǒng)。Claude 3.7 Sonnet的最大亮點(diǎn)在于允許用戶控制模型的“思考時(shí)間”,實(shí)現(xiàn)了近乎即時(shí)響應(yīng)和長時(shí)間逐步思考兩種模式,并能在API中進(jìn)行細(xì)粒度控制。
1. Claude 3.7 Sonnet 的核心創(chuàng)新
Claude 3.7 Sonnet將大型語言模型和推理模型合二為一,用戶可根據(jù)需求選擇模型的響應(yīng)速度。擴(kuò)展思考模式下,模型通過迭代式調(diào)用函數(shù)、響應(yīng)環(huán)境變化等方式,顯著提升了在數(shù)學(xué)、物理、指令遵循、編程等領(lǐng)域的性能。Anthropic還開發(fā)了“思考預(yù)算”機(jī)制,用戶可控制模型的思考token數(shù)量,平衡回答質(zhì)量、速度和成本。值得注意的是,Anthropic減少了對競賽類題目的專項(xiàng)優(yōu)化,轉(zhuǎn)而關(guān)注更貼近實(shí)際應(yīng)用場景的任務(wù),尤其在編碼和前端網(wǎng)頁開發(fā)方面取得了顯著改進(jìn)。同時(shí)發(fā)布的Claude Code命令行工具,進(jìn)一步提升了開發(fā)效率。
2. Anthropic 的推理機(jī)制
Anthropic的擴(kuò)展思考模式并非切換不同模型,而是通過“動(dòng)作擴(kuò)展”能力,讓同一個(gè)模型擁有更多思考時(shí)間和計(jì)算資源。在啟用推理能力時(shí),采用“串行測試時(shí)計(jì)算”機(jī)制,通過增加計(jì)算資源實(shí)現(xiàn)深度思考。Anthropic也在探索“并行測試時(shí)計(jì)算”,例如通過多數(shù)/投票或自檢優(yōu)化機(jī)制來提升性能。
3. Claude 3.7 Sonnet 的性能表現(xiàn)
在擴(kuò)展思考模式下,Claude 3.7 Sonnet在研究生級(jí)推理任務(wù)上達(dá)到78.2%的準(zhǔn)確率,超越了部分競品。在數(shù)學(xué)解題和編程方面也表現(xiàn)出色,尤其在SWE-bench Verified編程測試中,其通過率顯著高于OpenAI的o1和o3-mini模型以及DeepSeek R1。
4. 用戶評(píng)價(jià)與Claude Code
Hacker News上的用戶對Claude 3.7 Sonnet的易用性和在學(xué)習(xí)和工作中的幫助表示肯定,但也指出了服務(wù)穩(wěn)定性方面的問題。Claude Code團(tuán)隊(duì)回應(yīng)稱目前不使用RAG技術(shù),Agentic Search在代碼任務(wù)中表現(xiàn)更好。
5. 阿里云QwQ推理模型系統(tǒng)的發(fā)布
阿里云同步推出了QwQ推理模型系統(tǒng),基于Qwen2.5-Max模型深度優(yōu)化,在數(shù)學(xué)解析、代碼生成和智能體開發(fā)等領(lǐng)域表現(xiàn)出色。該系統(tǒng)整合了深度推理引擎和實(shí)時(shí)網(wǎng)絡(luò)信息檢索接口,并支持多種工具的并行調(diào)用。未來計(jì)劃開源模型參數(shù)并推出移動(dòng)端應(yīng)用。
6. 總結(jié)
Anthropic的Claude 3.7 Sonnet和阿里云的QwQ模型系統(tǒng)都代表了大模型推理能力的最新進(jìn)展,兩者在功能和設(shè)計(jì)理念上各有側(cè)重,未來大模型的競爭將更加激烈,也更值得期待。
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實(shí)踐案例,助你全面擁抱AIGC。
相關(guān)文章
