AIGC動態歡迎閱讀
原標題:剛剛,OpenAI又雙叒叕鴿了!沒等來“草莓”發布,只敷衍發了評測集,網友:拿這來搶谷歌發布會風頭?
關鍵字:小米,問題,測試,報告,模型
文章來源:AI前線
內容字數:0字
內容摘要:
整理 | 李冬梅 褚杏娟
大家期待中的 OpenAI 與谷歌“大戰”并未如約而至,雙方都打出了“毫無力”的棉花拳。以為能等到“草莓”,沒想到來了個“羽衣甘藍”盡管全世界都在盯著“草莓計劃”,但似乎叛逆的 OpenAI 總是不盡如人愿。你要“草莓”,他們偏偏給你個“羽衣甘藍”。
北京時間 14 日凌晨 2 點,OpenAI 在其官網上發文稱正在發布一個經過人工驗證的 SWE-bench 子集,該子集可以更可靠地評估 AI 模型解決現實世界軟件問題的能力。
SWE-bench Hugging Face 地址:
https://huggingface.co/datasets/princeton-nlp/SWE-bench_Verified
作為準備框架的一部分(準備框架是 OpenAI 設立的一套安全地開發和部署其前沿模型的方法),OpenAI 開發了一系列指標來跟蹤、評估和預測模型的自主行動能力。
一直以來,自主完成軟件工程任務的能力是前沿模型自主風險類別中中等風險水平的關鍵組成部分。由于軟件工程任務的復雜性、準確評估生成的代碼的難度以及模擬真實世界開發場景的挑戰,評估這些能力具有挑
原文鏈接:剛剛,OpenAI又雙叒叕鴿了!沒等來“草莓”發布,只敷衍發了評測集,網友:拿這來搶谷歌發布會風頭?
聯系作者
文章來源:AI前線
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...