顛覆想象!OpenAI最新o3模型在AGI測試中展現(xiàn)驚人數(shù)學(xué)實力,同行望塵莫及!
o3 mini版將在1月底推出,之后不久推出o3完整版。
原標(biāo)題:OpenAI最強推理模型o3發(fā)布!AGI測試能力暴漲,最難數(shù)學(xué)測試分數(shù)碾壓同行
文章來源:智東西
內(nèi)容字數(shù):6462字
OpenAI發(fā)布o3模型:邁向通用人工智能的新階段
2023年12月21日,OpenAI在其“連續(xù)12日圣誕發(fā)布”活動中推出了重磅新品o3,標(biāo)志著AI技術(shù)的又一重大進步。OpenAI CEO Sam Altman表示,o3在某些條件下接近通用人工智能(AGI),并強調(diào)其在復(fù)雜推理任務(wù)中的強大能力。
1. o3模型的特點
o3繼承了前代o1模型的思維鏈機制,能夠逐步解釋其邏輯推理過程,得出最準(zhǔn)確的答案。新版本包括mini版和完整版,mini版將于2024年1月底推出。o3的推理時間可調(diào)節(jié)為低、中、高,推理效果隨時間提升而增強。
2. 性能測試與評估
在ARC-AGI測試中,o3在高推理能力設(shè)置下取得了87.5%的分數(shù),顯著超過o1的成績。o3的能力在多個基準(zhǔn)測試中表現(xiàn)優(yōu)異,例如在SWE-Bench Verified中,準(zhǔn)確率高達71.7%。此外,o3在編程競賽平臺Codeforces中得分達2727,展示出其卓越的編程能力。
3. 安全性與對齊策略
OpenAI還提出了“審議對齊”訓(xùn)練方法,旨在提升模型的安全性。該方法通過明確的安全規(guī)范引導(dǎo)模型推理,避免了傳統(tǒng)訓(xùn)練方法的局限性。研究顯示,o3在多個安全基準(zhǔn)測試中表現(xiàn)優(yōu)于其他競爭模型,顯示出其在安全性方面的優(yōu)勢。
4. 未來展望
OpenAI計劃與ARC-AGI基金會合作,構(gòu)建新的基準(zhǔn)測試,進一步推動AI技術(shù)的發(fā)展。盡管o3系列模型的發(fā)布尚需時間,但其性能和潛力吸引了全球的關(guān)注,預(yù)示著通往AGI的競賽正在加速進行。
總之,o3模型的推出不僅是OpenAI技術(shù)進步的體現(xiàn),更為未來的AI發(fā)展奠定了基礎(chǔ),值得期待。
聯(lián)系作者
文章來源:智東西
作者微信:
作者簡介:智能產(chǎn)業(yè)新媒體!智東西專注報道人工智能主導(dǎo)的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)升級。聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。