剛剛,OpenAI又雙叒叕鴿了!沒(méi)等來(lái)“草莓”發(fā)布,只敷衍發(fā)了評(píng)測(cè)集,網(wǎng)友:拿這來(lái)?yè)尮雀璋l(fā)布會(huì)風(fēng)頭?

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:剛剛,OpenAI又雙叒叕鴿了!沒(méi)等來(lái)“草莓”發(fā)布,只敷衍發(fā)了評(píng)測(cè)集,網(wǎng)友:拿這來(lái)?yè)尮雀璋l(fā)布會(huì)風(fēng)頭?
關(guān)鍵字:小米,問(wèn)題,測(cè)試,報(bào)告,模型
文章來(lái)源:AI前線
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
整理 | 李冬梅 褚杏娟
大家期待中的 OpenAI 與谷歌“大戰(zhàn)”并未如約而至,雙方都打出了“毫無(wú)力”的棉花拳。以為能等到“草莓”,沒(méi)想到來(lái)了個(gè)“羽衣甘藍(lán)”盡管全世界都在盯著“草莓計(jì)劃”,但似乎叛逆的 OpenAI 總是不盡如人愿。你要“草莓”,他們偏偏給你個(gè)“羽衣甘藍(lán)”。
北京時(shí)間 14 日凌晨 2 點(diǎn),OpenAI 在其官網(wǎng)上發(fā)文稱(chēng)正在發(fā)布一個(gè)經(jīng)過(guò)人工驗(yàn)證的 SWE-bench 子集,該子集可以更可靠地評(píng)估 AI 模型解決現(xiàn)實(shí)世界軟件問(wèn)題的能力。
SWE-bench Hugging Face 地址:
https://huggingface.co/datasets/princeton-nlp/SWE-bench_Verified
作為準(zhǔn)備框架的一部分(準(zhǔn)備框架是 OpenAI 設(shè)立的一套安全地開(kāi)發(fā)和部署其前沿模型的方法),OpenAI 開(kāi)發(fā)了一系列指標(biāo)來(lái)跟蹤、評(píng)估和預(yù)測(cè)模型的自主行動(dòng)能力。
一直以來(lái),自主完成軟件工程任務(wù)的能力是前沿模型自主風(fēng)險(xiǎn)類(lèi)別中中等風(fēng)險(xiǎn)水平的關(guān)鍵組成部分。由于軟件工程任務(wù)的復(fù)雜性、準(zhǔn)確評(píng)估生成的代碼的難度以及模擬真實(shí)世界開(kāi)發(fā)場(chǎng)景的挑戰(zhàn),評(píng)估這些能力具有挑
聯(lián)系作者
文章來(lái)源:AI前線
作者微信:
作者簡(jiǎn)介:

粵公網(wǎng)安備 44011502001135號(hào)