剛剛，OpenAI又雙叒叕鴿了！沒(méi)等來(lái)“草莓”發(fā)布，只敷衍發(fā)了評(píng)測(cè)集，網(wǎng)友：拿這來(lái)?yè)尮雀璋l(fā)布會(huì)風(fēng)頭？

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布 AI前線

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：剛剛，OpenAI又雙叒叕鴿了！沒(méi)等來(lái)“草莓”發(fā)布，只敷衍發(fā)了評(píng)測(cè)集，網(wǎng)友：拿這來(lái)?yè)尮雀璋l(fā)布會(huì)風(fēng)頭？
關(guān)鍵字：小米,問(wèn)題,測(cè)試,報(bào)告,模型
文章來(lái)源：AI前線
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

整理 | 李冬梅褚杏娟
大家期待中的 OpenAI 與谷歌“大戰(zhàn)”并未如約而至，雙方都打出了“毫無(wú)力”的棉花拳。以為能等到“草莓”，沒(méi)想到來(lái)了個(gè)“羽衣甘藍(lán)”盡管全世界都在盯著“草莓計(jì)劃”，但似乎叛逆的 OpenAI 總是不盡如人愿。你要“草莓”，他們偏偏給你個(gè)“羽衣甘藍(lán)”。
北京時(shí)間 14 日凌晨 2 點(diǎn)，OpenAI 在其官網(wǎng)上發(fā)文稱(chēng)正在發(fā)布一個(gè)經(jīng)過(guò)人工驗(yàn)證的 SWE-bench 子集，該子集可以更可靠地評(píng)估 AI 模型解決現(xiàn)實(shí)世界軟件問(wèn)題的能力。
SWE-bench Hugging Face 地址：
https://huggingface.co/datasets/princeton-nlp/SWE-bench_Verified
作為準(zhǔn)備框架的一部分（準(zhǔn)備框架是 OpenAI 設(shè)立的一套安全地開(kāi)發(fā)和部署其前沿模型的方法），OpenAI 開(kāi)發(fā)了一系列指標(biāo)來(lái)跟蹤、評(píng)估和預(yù)測(cè)模型的自主行動(dòng)能力。
一直以來(lái)，自主完成軟件工程任務(wù)的能力是前沿模型自主風(fēng)險(xiǎn)類(lèi)別中中等風(fēng)險(xiǎn)水平的關(guān)鍵組成部分。由于軟件工程任務(wù)的復(fù)雜性、準(zhǔn)確評(píng)估生成的代碼的難度以及模擬真實(shí)世界開(kāi)發(fā)場(chǎng)景的挑戰(zhàn)，評(píng)估這些能力具有挑

原文鏈接：剛剛，OpenAI又雙叒叕鴿了！沒(méi)等來(lái)“草莓”發(fā)布，只敷衍發(fā)了評(píng)測(cè)集，網(wǎng)友：拿這來(lái)?yè)尮雀璋l(fā)布會(huì)風(fēng)頭？