AIGC動態歡迎閱讀
原標題:超越 Devin,姚班帶隊 OpenCSG 刷新大模型編程 SWEBench 評測榜單
關鍵字:模型,解讀,代碼,公司,數字
文章來源:AI科技評論
內容字數:0字
內容摘要:
AI編程持續突圍。近日,來自中國大模型初創公司OpenCSG推出的StarShip CodeGen Agent,以23.67%的成績刷新了普林斯頓SWEBench(大模型真實編程評測)排行榜,取得了全球第二名的成績,同時創造了非GPT-4o基模的最高紀錄(SOTA)。開放傳神(OpenCSG)成立于2023年,是一家致力于大模型生態社區建設,匯集人工智能行業上下游企業鏈共同為大模型在垂直行業的應用提供解決方案和工具平臺的公司。
SWEBench評測高度貼近真實編程場景,難度極高,不僅要求模型能理解需求、協調多個函數/類甚至文件的變更,還要求模型與執行環境交互,處理超長上下文并執行遠超傳統代碼生成任務的復雜邏輯推理。在這種高難度的真實測試中,行業中最先進的GPT4和Devin,也僅能解決1.74%和13.86%的問題。
OpenCSG的這一成績,標志著國內公司在推動語言模型向更實用、智能和自主化方向發展邁出了領先的一步。1大模型編程的真實挑戰2024年3月,首個AI軟件工程師Devin的橫空出世,引爆了整個技術界。雖然伴隨著一系列爭議,但Devin本身強大的創新能力和巨大的潛力,帶給
原文鏈接:超越 Devin,姚班帶隊 OpenCSG 刷新大模型編程 SWEBench 評測榜單
聯系作者
文章來源:AI科技評論
作者微信:aitechtalk
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...