原標題:重磅!OpenAI推出o3模型系列:徹底顛覆AI懷疑論者,AGI評測基準達到驚人87.5%
文章來源:人工智能學家
內容字數:7934字
OpenAI推出o3模型系列及其測試表現
OpenAI近期發布了o3模型系列,涵蓋o3、o3mini及其不同計算力版本。o3在ARC-AGI(通用人工智能評估基準)測試中取得了87.5%的高分,超越了人類的85%。這一成績引起了廣泛關注,ARC-AGI創始人指出,o3在適應新任務方面確實取得了重要突破。
低計算模式與高計算模式的表現
在低計算模式下,o3的得分為75.7%,而在高計算模式下則高達87.5%。盡管高成本的計算模式提供了更強的能力,但仍有一些ARC-AGI-1任務是o3無法解決的,ARC-AGI-2則對o3構成了更大的挑戰。這表明,盡管o3在某些任務上表現優異,但仍未達到真正的AGI水平。
ARC-AGI基準的飽和現象
ARC-AGI基準的第一個版本已經開始出現飽和現象,預計在明年的Kaggle競賽中,參賽者的平均得分將達到81%。未來的ARC-AGI-2版本將減少容易被的任務,挑戰性將大幅提升。
o3的技術擴展瓶頸
未來AGI研究的關鍵在于理解o3背后技術的擴展瓶頸。如果人類標注的CoT數據成為主要瓶頸,o3的能力可能會迅速達到頂峰。對o3在高計算設置下無法解決的任務進行分析對于評估其優勢與局限性至關重要。
o3在其他基準測試中的表現
除了ARC-AGI,o3在其他技術基準如EpochAI陶哲軒認證、AIME和GPQA-Diamond中也表現出色。在AIME 2024中,o3獲得了96.7%的分數,僅錯過一個問題,而在GPQA Diamond上則獲得了87.7%的分數,遠超人類專家的表現。
未來展望
OpenAI正在積極招募安全研究員參與o3-mini和o3的測試。未來知識庫平臺也將持續更新前沿科技研究資料,助力對AGI及其相關領域的深入理解。
總體來看,o3模型系列的推出標志著人工智能研究的一個重要里程碑,但仍需繼續努力以實現通用人工智能的真正目標。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構