揭開OpenAI終極秘密:高計(jì)算模式任務(wù)成本驚人,數(shù)千美元背后的科技!
o3:突破 ARC-AGI 基準(zhǔn),博士級問題求解能力
原標(biāo)題:剛剛,OpenAI放出最后大驚喜o3,高計(jì)算模式每任務(wù)花費(fèi)數(shù)千美元
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8414字
OpenAI 發(fā)布新推理模型 o3 和 o3-mini
近日,OpenAI 結(jié)束了為期 12 天的發(fā)布活動,推出了新的推理系列模型——o3 和 o3-mini。o3 是 o1 系列模型的繼任者,旨在通過延長推理時間提高回答的準(zhǔn)確性。在命名上跳過了 o2,主要是為了避免與英國電信公司 O2 產(chǎn)生混淆。
o3 模型性能突破 ARC-AGI 基準(zhǔn)
o3 模型在 ARC-AGI 基準(zhǔn)測試中表現(xiàn)出色,首次突破了該基準(zhǔn),最低性能達(dá)到了 75.7%,在高計(jì)算資源下可達(dá)到 87.5%。ARC-AGI 測試主要考察 AI 的模式識別與推理能力,o3 表現(xiàn)接近人類水平,展現(xiàn)了人工智能適應(yīng)新任務(wù)的巨大潛力。盡管如此,專家仍指出,o3 還不是 AGI,因?yàn)樗诤唵稳蝿?wù)上依然存在失敗的情況。
o3-mini 的高性能與低成本優(yōu)勢
o3-mini 是一個更經(jīng)濟(jì)高效的版本,專注于提高推理速度并降低成本。它支持多種推理時間選項(xiàng),并在編程任務(wù)上表現(xiàn)出色,尤其是在數(shù)學(xué)問題上,準(zhǔn)確率與 GPT-4o 相當(dāng)。o3-mini 的推出使得模型的應(yīng)用更加廣泛和靈活。
申請測試和未來計(jì)劃
OpenAI 已經(jīng)開始推進(jìn)外部安全測試,測試者可以申請參與 o3-mini 的測試。申請截止日期為 2025 年 1 月 10 日,申請者需要提供相關(guān)信息以獲得測試權(quán)限。OpenAI 還計(jì)劃進(jìn)一步開發(fā)下一代基準(zhǔn)測試 ARC-AGI-2,以繼續(xù)推動 AI 領(lǐng)域的發(fā)展。
總結(jié)與展望
OpenAI 在此次發(fā)布中展示了 o3 和 o3-mini 的潛力,尤其在解決復(fù)雜問題和編程任務(wù)上。雖然我們?nèi)孕栌^察這些模型在實(shí)際應(yīng)用中的表現(xiàn),但從目前的描述來看,未來的發(fā)展前景值得期待。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺