實(shí)測(cè)Claude 3.7:3200行代碼一口氣輸出,物理規(guī)律手拿把掐,弱智吧已失守
Anthropic估值漲到615億美元
原標(biāo)題:實(shí)測(cè)Claude 3.7:3200行代碼一口氣輸出,物理規(guī)律手拿把掐,弱智吧已失守
文章來源:量子位
內(nèi)容字?jǐn)?shù):6560字
Claude 3.7 Sonnet:編程能力爆表的新一代AI模型
近日,Anthropic發(fā)布了其最新一代大型語(yǔ)言模型Claude 3.7 Sonnet,引發(fā)了廣泛關(guān)注。其在編程、物理模擬以及現(xiàn)實(shí)世界任務(wù)處理上的強(qiáng)大能力,使其成為AI領(lǐng)域的新焦點(diǎn)。本文將對(duì)Claude 3.7 Sonnet的各項(xiàng)能力進(jìn)行總結(jié)。
1. 編程能力:代碼生成速度快,游戲開發(fā)能力強(qiáng)
Claude 3.7 Sonnet展現(xiàn)出驚人的編程能力。它能夠根據(jù)簡(jiǎn)單的描述生成大量的、功能完善的代碼。例如,僅需一個(gè)樣本,就能生成3200多行代碼,創(chuàng)建一個(gè)包含跳躍、打怪、回血、吃金幣等復(fù)雜機(jī)制的可玩性很高的游戲,甚至可以復(fù)刻熱門游戲《Flappy Bird》和《我的世界》。 它還能夠快速生成模擬太陽(yáng)系運(yùn)行的1374行代碼,并實(shí)現(xiàn)實(shí)時(shí)交互,展現(xiàn)了其對(duì)物理規(guī)律的準(zhǔn)確把握和代碼生成速度。
2. 物理模擬能力:精準(zhǔn)把握物理規(guī)律,速度快
許多測(cè)試者利用Claude 3.7 Sonnet進(jìn)行物理模擬,例如模擬四維空間內(nèi)小球的彈跳,以及模擬流體。其速度遠(yuǎn)超之前的模型,例如o3-mini,展現(xiàn)了“天下武功,唯快不破”的優(yōu)勢(shì)。 它甚至能夠根據(jù)簡(jiǎn)單的描述生成模擬太陽(yáng)系運(yùn)行的程序,準(zhǔn)確地展現(xiàn)了各個(gè)行星的運(yùn)行軌跡。
3. 現(xiàn)實(shí)世界任務(wù)處理能力:超越預(yù)期,應(yīng)用場(chǎng)景廣泛
Claude 3.7 Sonnet在處理現(xiàn)實(shí)世界任務(wù)方面也表現(xiàn)出色。它可以生成動(dòng)畫天氣卡,模擬云彩移動(dòng)和雨滴飄落;可以高精度還原網(wǎng)頁(yè)HTML結(jié)構(gòu);甚至可以根據(jù)心率生成Apple Watch貪吃蛇游戲,游戲難度與玩家心率正相關(guān)。這些都體現(xiàn)了其強(qiáng)大的理解和應(yīng)用能力。
4. 邏輯推理能力:識(shí)破邏輯陷阱,應(yīng)對(duì)復(fù)雜情境
Claude 3.7 Sonnet能夠識(shí)破許多邏輯陷阱。在“Misguided Attention”基準(zhǔn)測(cè)試中,它成功避免了被誤導(dǎo)信息影響,正確解答了改進(jìn)后的“電車難題”和“薛定諤的貓”問題,甚至能識(shí)別出一些“弱智吧”式的因果倒置問題,表現(xiàn)出強(qiáng)大的邏輯推理能力。即使在未開啟推理模式下,其表現(xiàn)也與開啟推理模式的o3-mini不相上下。
5. Anthropic公司及融資
Claude 3.7 Sonnet的發(fā)布也伴隨著Anthropic新一輪35億美元的融資消息,估值達(dá)到615億美元,遠(yuǎn)超預(yù)期,這體現(xiàn)了市場(chǎng)對(duì)其技術(shù)的認(rèn)可。
6. 總結(jié)
Claude 3.7 Sonnet 在編程、物理模擬和現(xiàn)實(shí)世界任務(wù)處理等方面展現(xiàn)出強(qiáng)大的能力,其速度快、準(zhǔn)確性高,并具有強(qiáng)大的邏輯推理能力。 這款新模型的出現(xiàn),無疑將推動(dòng)AI領(lǐng)域進(jìn)一步發(fā)展,并為各種應(yīng)用場(chǎng)景帶來更多可能性。 其在代碼生成和游戲開發(fā)方面的突出表現(xiàn),也使其成為開發(fā)者和游戲愛好者關(guān)注的焦點(diǎn)。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破