勢均力敵,不分伯仲。
原標題:DeepSeek R1有沒有趕上OpenAI o1? 八大場景測評結果出爐
文章來源:機器之心
內容字數:9556字
DeepSeek R1:性價比路線挑戰OpenAI精英
近日,機器之心報道了DeepSeek R1推理模型與OpenAI ChatGPT模型的對比測試結果,引發廣泛關注。測試涵蓋創意寫作、數學、指令遵循等領域,DeepSeek R1以其高性價比的表現,成功挑戰OpenAI付費“精英”模型,為AI領域帶來新的思考。
測試設計與方法
測試采用8個不同類型的prompt,涵蓋創意寫作(老爸笑話、創意故事)、邏輯推理(另類藏頭詩、追蹤球的下落)、知識問答(歷史顏色命名、挑戰巨型質數)、以及復雜的指令遵循(趕飛機、復數集合測試)。測試結果以DeepSeek R1: ChatGPT o1: ChatGPT o1 Pro的比分呈現,最終比分為5:2:4,DeepSeek R1表現亮眼。
創意寫作:DeepSeek R1展現靈氣
在創意寫作方面,DeepSeek R1在“老爸笑話”和“亞伯拉罕·林肯發明籃球”的創意故事創作中表現突出,其生成的答案充滿想象力和趣味性,勝過OpenAI模型。
邏輯推理與知識問答:各有千秋
在“另類藏頭詩”任務中,DeepSeek R1因理解錯誤而失分,而ChatGPT o1 Pro表現最佳。在“歷史顏色命名”和“挑戰巨型質數”中,三個模型都展現了不錯的知識儲備和推理能力,但ChatGPT o1 Pro在風格上略勝一籌。DeepSeek R1在“挑戰巨型質數”中憑借精確答案獲得勝利,展現了其強大的信息檢索和計算能力。
指令遵循:細節決定成敗
在“趕飛機”任務中,DeepSeek R1雖然計算時間略慢于ChatGPT o1,但其附加的風險提示和實用建議,使其在細節處理上勝出。在“追蹤球的下落”中,三個模型均正確回答,展現了對物體物理狀態的理解能力。
復雜指令:暴露不足
在“復數集合測試”中,DeepSeek R1在計算總位數時出現錯誤,而ChatGPT o1和o1 Pro則準確完成任務,展現了其在處理復雜指令方面的優勢。
總結:性價比路線的勝利
總的來說,DeepSeek R1在多項測試中展現了與OpenAI付費模型相媲美的能力,尤其在創意寫作和信息檢索方面表現出色。雖然在一些復雜任務中仍存在不足,但其高性價比優勢使其在AI競技場中占據一席之地,打破了“高成本才能高性能”的刻板印象。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺