物理測試暴擊AI圈，DeepSeek R1穩超o1、Claude，我們已進入RL黃金時代

這下實錘領先了？

原標題：物理測試暴擊AI圈，DeepSeek R1穩超o1、Claude，我們已進入RL黃金時代
文章來源：機器之心
內容字數：6285字

DeepSeek R1：攪動AI格局的“神秘東方力量”

近日，一款名為DeepSeek R1的開源AI大模型橫空出世，在國內外AI圈引發巨大震動。其強大的性能，特別是無需監督訓練的純強化學習路線，以及堪比OpenAI o1的思維鏈能力，讓業界為之側目，甚至有人驚呼“游戲結束”。

1. R1的驚艷表現與質疑聲

DeepSeek R1在各項基準測試中表現出色，尤其是在一個模擬彈跳球的測試中完勝OpenAI的o1 pro，后者每月收費200美元。該測試要求AI編寫Python腳本，模擬黃色球體在一個旋轉的正方形內彈跳，并確保球體始終在正方形內。R1精準完成了任務，而其他一些模型，如Anthropic的Claude 3.5 Sonnet和谷歌的Gemini 1.5 Pro，則出現了物理原理判斷錯誤。雖然部分模型如GPT-4o和Gemini 2.0也通過了測試，但R1的表現依然令人印象深刻。然而，R1的卓越性能也引發了一些質疑：它除了跑贏基準測試，真的能領先嗎？其“自建模擬物理規律”的能力是否真實可信？

2. DeepSeek：新的“硅谷神話”？

DeepSeek的崛起，讓硅谷的AI公司如臨大敵。Meta員工正在瘋狂分析DeepSeek的技術，試圖復制其成功經驗；Scale AI創始人Alexandr Wang則認為DeepSeek的模型性能與美國最好的模型相當，并表示這可能會改變AI競賽的格局。一些分析認為，DeepSeek的成功并非偶然。其擁有超過一萬塊甚至可能高達五萬塊的GPU，并且只從中國排名前三的大學招聘人才，展現出強大的資源實力和人才儲備。此外，中國科技公司可能享有的補貼也降低了DeepSeek的研發成本。

3. 開源的力量與未來展望

DeepSeek R1的成功，也讓業界重新審視開源AI模型的潛力。Hyperbolic的CTO Yuchen Jin指出，DeepSeek R1證明了開源AI與閉源AI的差距不到6個月，中國正在主導開源AI競賽，強化學習正進入黃金時代，蒸餾模型也展現出強大的力量。 Meta首席人工智能科學家Yann LeCun則認為，DeepSeek的成功并非中國超越美國AI的證據，而是開源模型正在超越專有模型的體現。他強調了開放研究和開源社區的重要性，DeepSeek正是受益于Meta的PyTorch和Llama等開源項目。

4. 持續的競爭與未知的未來

DeepSeek的出現，引發了AI行業激烈的競爭。Meta正在加大投資建設數據中心，其他公司也在摩拳擦掌。雖然目前DeepSeek主要是在對現有模型的快速跟進，但其迅速的研發進度和對人才的培養，使其具備了強大的競爭力。未來誰將最終勝出仍是未知數，但DeepSeek的崛起無疑為AI領域注入了新的活力，也為全球AI格局帶來了新的變數。同時，人們對新技術的興奮之余，也對未來發展抱有謹慎的思考。