UCL博士生創(chuàng)業(yè)一年,造出最強(qiáng)AI「ML工程師」,OpenAI蓋戳認(rèn)證
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:UCL博士生創(chuàng)業(yè)一年,造出最強(qiáng)AI「ML工程師」,OpenAI蓋戳認(rèn)證
關(guān)鍵字:報(bào)告,模型,解讀,任務(wù),框架
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心原創(chuàng)
作者:微胖重要的事說三遍:Agent 框架很重要。一、被忽略的「Agent 框架」
OpenAI 最近又有了新動(dòng)作,這次他們的野心更大了。
鑒于大型語(yǔ)言模型( LLM )強(qiáng)大的先驗(yàn)知識(shí)和行動(dòng)/反應(yīng)能力,讓 AI 訓(xùn)練 AI ,可還行?
幾個(gè)頂級(jí)大模型在機(jī)器學(xué)習(xí)自動(dòng)化工程上的表現(xiàn)如何?
人類距離 OpenAI AGI 路線圖上的 Level 3( Agents )還有多遠(yuǎn)?
懷揣這些問題,OpenAI 自行推出了一個(gè)新基準(zhǔn)測(cè)試—— MLE-bench ,嚴(yán)選 75 個(gè)與機(jī)器學(xué)習(xí)工程( MLE )相關(guān)的 Kaggle 競(jìng)賽題目。畢竟,目前「很少有基準(zhǔn)測(cè)試能夠全面衡量自主的端到端機(jī)器學(xué)習(xí)工程」。
結(jié)果發(fā)現(xiàn),GPT-4o 結(jié)合 AIDE 框架平均獲得獎(jiǎng)牌數(shù)量,明顯優(yōu)于另外兩個(gè)開源 Agent 框架。
更令人驚訝的是,當(dāng)模型切換到 OpenAI o1-preview(據(jù)稱,突破了 LLM 推理極限)后,其表現(xiàn)又翻了一倍:
在大約 16.9% 的比賽中達(dá)到了相當(dāng)于 Kaggle 銅牌以上的水平,獎(jiǎng)牌數(shù)量也一騎絕塵。
而且,8 次嘗試后,o1-preview 的得分從單次嘗試的 16.
原文鏈接:UCL博士生創(chuàng)業(yè)一年,造出最強(qiáng)AI「ML工程師」,OpenAI蓋戳認(rèn)證
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: