o3:突破 ARC-AGI 基準,博士級問題求解能力
OpenAI 發布新推理模型 o3 和 o3-mini
近日,OpenAI 結束了為期 12 天的發布活動,推出了新的推理系列模型——o3 和 o3-mini。o3 是 o1 系列模型的繼任者,旨在通過延長推理時間提高回答的準確性。在命名上跳過了 o2,主要是為了避免與英國電信公司 O2 產生混淆。
o3 模型性能突破 ARC-AGI 基準
o3 模型在 ARC-AGI 基準測試中表現出色,首次突破了該基準,最低性能達到了 75.7%,在高計算資源下可達到 87.5%。ARC-AGI 測試主要考察 AI 的模式識別與推理能力,o3 表現接近人類水平,展現了人工智能適應新任務的巨大潛力。盡管如此,專家仍指出,o3 還不是 AGI,因為它在簡單任務上依然存在失敗的情況。
o3-mini 的高性能與低成本優勢
o3-mini 是一個更經濟高效的版本,專注于提高推理速度并降低成本。它支持多種推理時間選項,并在編程任務上表現出色,尤其是在數學問題上,準確率與 GPT-4o 相當。o3-mini 的推出使得模型的應用更加廣泛和靈活。
申請測試和未來計劃
OpenAI 已經開始推進外部安全測試,測試者可以申請參與 o3-mini 的測試。申請截止日期為 2025 年 1 月 10 日,申請者需要提供相關信息以獲得測試權限。OpenAI 還計劃進一步開發下一代基準測試 ARC-AGI-2,以繼續推動 AI 領域的發展。
總結與展望
OpenAI 在此次發布中展示了 o3 和 o3-mini 的潛力,尤其在解決復雜問題和編程任務上。雖然我們仍需觀察這些模型在實際應用中的表現,但從目前的描述來看,未來的發展前景值得期待。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...