官方透露Claude3.7沒那么大,訓練花了幾千萬美元
原標題:Claude 3.7登頂編程競技場,大幅領先100分!最新布料模擬實測再驚艷網友
文章來源:量子位
內容字數:2524字
Claude 3.7 Sonnet 編程能力登頂,驚艷網友
近日,Anthropic公司推出的Claude 3.7 Sonnet在LMArena(LMSYS Org)打造的WebDev競技場榜單中以絕對優勢登頂,大幅領先第二名(同樣是Claude的另一個版本Claude 3.5 Sonnet)100多分。WebDev榜單與Chatbot Arena榜單類似,但更側重于AI的編程和網頁應用開發能力。值得注意的是,開源模型DeepSeek R1也表現出色,排名第三。
Claude 3.7 Sonnet 的驚艷表現
Claude 3.7 Sonnet 的高分并非偶然。最近,大量網友實測并分享了其令人驚艷的編程能力,刷新了人們對AI編程能力的認知。例如,它僅用幾分鐘就能用p5js編寫出布料模擬效果,這在過去需要耗費數天時間才能完成。一位MIT碩士畢業的學者看到后,感嘆AI的進步速度之快,甚至質疑自身職業的未來。
布料模擬效果
網友不僅復現了該布料模擬效果,還進一步改進,加入了明暗關系,效果更加逼真,甚至超越了高級圖形學課程的教學內容。
Visual Basic 4 代碼轉換
一位網友將自己1997年用Visual Basic 4編寫的EXE文件上傳給Claude 3.7,請求將其轉換為Python代碼。Claude 3.7在5分鐘內完成了轉換,并用Pygame編寫了可運行的Python代碼,令人驚嘆。
GitHub 集成功能
Claude 3.7 的新GitHub集成功能也備受好評。它可以Fork代碼庫,選擇特定文件夾,并回答關于代碼的任何問題,還能顯示每個文件夾在上下文窗口中所占的百分比,幫助用戶理解代碼結構和內容。例如,它可以可視化yt-dlp(一個YouTube下載器)的工作流程。
游戲及互動應用開發
沃頓商學院教授Ethan Mollick也對Claude 3.7進行了測試,例如基于“Bartleby the Scrivner”故事創建小游戲,以及制作互動式“時光機道具”。他專門撰寫博客介紹了Claude 3.7的強大功能,Anthropic官方也對此進行了回應,承認Claude 3.7的模型規模并不算大,但未來的模型規模會進一步增長。
總結
Claude 3.7 Sonnet 在WebDev競技場榜單的登頂,以及眾多網友的積極反饋,充分展現了其強大的編程能力。它不僅能夠快速高效地完成復雜的編程任務,還能幫助用戶更好地理解和使用代碼,這對于軟件開發領域來說具有重要的意義。 未來,隨著模型規模的進一步增長,Claude系列模型有望在AI編程領域取得更大的突破。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破