團隊還給基準測試挑出了bug
原標題:DeepSeek新模型霸榜,代碼能力與OpenAI o1相當且確認開源,網友:今年編程只剩Tab鍵
文章來源:量子位
內容字數:2879字
DeepSeek-R1-Preview:超越Lite版,與OpenAI o1比肩的開源大模型即將到來
近日,DeepSeek的全新大模型DeepSeek-R1-Preview引發廣泛關注。它在代碼基準測試LiveCodeBench上取得了令人矚目的成績,表現與OpenAI o1的中檔推理設置相當,甚至在某些方面超越了GPT-4o。
DeepSeek-R1-Preview:脫胎換骨的升級
不同于此前發布的輕量級預覽版DeepSeek-R1-Lite-Preview,DeepSeek-R1-Preview采用了更大規模的基礎模型。這意味著其推理能力得到了顯著提升,在LiveCodeBench的測試中與OpenAI o1的中檔推理設置不相上下。DeepSeek團隊還參與了LiveCodeBench評分系統的bug修復工作,確保了測試結果的準確性。
強大的代碼能力與自我反思機制
DeepSeek-R1-Lite-Preview已展現出強大的代碼生成能力,并在某些情況下表現出類似“自我反思”的糾錯能力,這在后續用戶的測試中得到了驗證。DeepSeek-R1-Preview作為其升級版,預計代碼能力將更上一層樓。 LiveCodeBench的測試也涵蓋了代碼自修復、執行和測試輸出預測等多個方面,全面評估了模型的代碼能力。
LiveCodeBench:公平可靠的代碼能力評估平臺
LiveCodeBench由UC伯克利、MIT和康奈爾大學團隊推出,其獨特的測試方法避免了數據泄露問題,并通過持續更新題目保證了測試的公平性和可靠性,獲得了開發者社區的廣泛認可。
開源的承諾與未來的期待
DeepSeek此前已宣布R1模型將開源,這意味著與OpenAI o1編程能力相當的開源模型即將發布。這一消息引發了網友們的熱議,許多人期待著DeepSeek-R1-Preview的開源以及API的上線。 一些開發者甚至呼吁Cursor將R1-Preview集成到其Agent模式中。
國產大模型的蓬勃發展
文章還簡要介紹了其他國產大模型的最新進展,例如MiniMax開源的4M超長上下文新模型,以及其他在特定領域取得突破的模型。這表明國產大模型領域正處于快速發展階段。
OpenAI的動向
文章最后提及OpenAI即將發布o3-mini模型,并透露了該模型的一些特性,例如速度快、大多數情況下不如o1-pro等信息。這預示著大模型領域的競爭將更加激烈。
總而言之,DeepSeek-R1-Preview的出現標志著開源大模型領域取得了重大進展,其強大的代碼能力和即將到來的開源,將對整個行業產生深遠的影響。 未來,隨著更多開源模型和API的發布,程序員們或許真的只需要按Tab鍵就能完成編程工作。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破