o3拿下25%高分震驚數(shù)學(xué)教授,2025 IMO金牌或被AI收入囊中!
原標(biāo)題:o3拿下25%高分震驚數(shù)學(xué)教授,2025 IMO金牌或被AI收入囊中!
文章來源:新智元
內(nèi)容字?jǐn)?shù):7264字
AI能否勝任數(shù)學(xué)研究?帝國理工學(xué)院教授Buzzard的深度思考
近日,帝國理工學(xué)院教授Kevin Buzzard發(fā)表長文,探討了人工智能在數(shù)學(xué)領(lǐng)域的能力和局限性。文章以OpenAI的o3模型在Frontier Math數(shù)據(jù)集上取得25.2%的準(zhǔn)確率為起點(diǎn),深入分析了AI在數(shù)學(xué)研究中的現(xiàn)狀和未來發(fā)展。
Frontier Math數(shù)據(jù)集:AI數(shù)學(xué)能力的試金石
Epoch AI發(fā)布的Frontier Math數(shù)據(jù)集包含數(shù)百個數(shù)學(xué)難題,其特點(diǎn)是答案具有清晰的計算結(jié)果且易于自動驗(yàn)證,難度遠(yuǎn)超一般水平。即使是菲爾茲獎得主陶哲軒也認(rèn)為這些問題極具挑戰(zhàn)性。Buzzard教授本人也僅能解答其中部分問題,并認(rèn)為即使是聰明的本科生也很難完成這些題目。數(shù)據(jù)集的保密性是為了防止模型通過記憶答案作弊。
OpenAI o3的突破與局限
OpenAI o3在Frontier Math數(shù)據(jù)集上取得25.2%的準(zhǔn)確率,震驚了AI數(shù)學(xué)界。但Buzzard教授指出,這部分源于數(shù)據(jù)集中存在約25%的“IMO/本科生風(fēng)格”問題。他認(rèn)為,o3目前的能力相當(dāng)于本科生水平,在解決標(biāo)準(zhǔn)化問題上表現(xiàn)出色,但在原創(chuàng)性證明和深刻理解數(shù)學(xué)概念方面仍有較大差距。 他期待AI能在該數(shù)據(jù)集上達(dá)到50%的準(zhǔn)確率,這代表著AI能夠應(yīng)對更高級別的博士資格考試。
AlphaProof的成功與IMO金牌的預(yù)測
DeepMind的AlphaProof系統(tǒng)在2024年國際數(shù)學(xué)奧林匹克競賽中取得了顯著成績,解決了六道題中的四道,其中三道題的解答是完全形式化的Lean證明。Buzzard教授預(yù)測,在2025年,AI將有能力達(dá)到IMO金牌水平。
“證明這個定理”的挑戰(zhàn):AI的未來方向
Buzzard教授強(qiáng)調(diào),雖然AI在“找到這個數(shù)字”方面取得了突破,但數(shù)學(xué)研究的核心在于“證明這個定理”。目前AI在邏輯推理方面的準(zhǔn)確性遠(yuǎn)低于人類專家,存在“偽證明”的風(fēng)險。他擔(dān)憂未來可能出現(xiàn)AI“證明”著名猜想(如黎曼猜想)的浪潮,這將給數(shù)學(xué)界帶來新的挑戰(zhàn)。 他認(rèn)為,未來AI不僅需要給出正確的證明,還需要以人類可理解的方式解釋其成立原因。
評分難題與未來展望
AI參與數(shù)學(xué)競賽帶來的評分難題也值得關(guān)注。對于使用計算機(jī)證明檢查器提交答案的系統(tǒng),評審相對容易;而對于使用自然語言提交答案的大語言模型,則需要人工仔細(xì)審核,這將耗費(fèi)大量時間和精力。未來AI在數(shù)學(xué)領(lǐng)域的突破,需要在“正確性”和“可理解性”之間取得平衡。
總而言之,Buzzard教授的文章為我們展現(xiàn)了AI在數(shù)學(xué)領(lǐng)域發(fā)展的光明前景和潛在挑戰(zhàn)。雖然AI在某些方面已經(jīng)展現(xiàn)出超越人類的能力,但在原創(chuàng)性思考和深刻理解方面仍有很長的路要走。 未來,AI與人類數(shù)學(xué)家的合作將是推動數(shù)學(xué)發(fā)展的重要方向。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。