谷歌AI解決IMO中84%的幾何問題,o1一道沒做對!Nature:AI已超過金牌得主平均水平
2024年IMO第四題只用19秒
原標(biāo)題:谷歌AI解決IMO中84%的幾何問題,o1一道沒做對!Nature:AI已超過金牌得主平均水平
文章來源:量子位
內(nèi)容字?jǐn)?shù):3559字
谷歌DeepMind數(shù)學(xué)AI AlphaGeometry2:攻克IMO幾何難題
谷歌DeepMind最新研發(fā)的數(shù)學(xué)AI AlphaGeometry2在解決國際數(shù)學(xué)奧林匹克競賽(IMO)幾何問題上取得了突破性進展。該系統(tǒng)在2000-2024年IMO競賽的50道幾何題中成功解決了42道,準(zhǔn)確率高達84%,相比前一代AlphaGeometry1提升了15道。這項成就甚至超越了純語言模型OpenAI o1和Gemini Flash Thinking,達到了與頂級人類選手相當(dāng)?shù)慕鹋扑健ature雜志也對此進行了報道,稱DeepMind的AI粉碎了數(shù)學(xué)難題。
AlphaGeometry2的驚人速度和解題能力
AlphaGeometry2展現(xiàn)了令人驚嘆的速度和解題能力。例如,它僅用19秒就解決了2024年IMO競賽的第四題,該題要求證明兩個角度之和等于180°。AlphaGeometry2通過巧妙地構(gòu)造輔助線,并利用相似三角形的性質(zhì)完成了證明。更令人印象深刻的是,它還解決了此前僅有數(shù)值解的IMO Shortlist 2009的一道難題,并給出了優(yōu)雅的幾何證明,所有輔助點的坐標(biāo)都是神經(jīng)網(wǎng)絡(luò)預(yù)測的。
AlphaGeometry2的四大核心升級
AlphaGeometry2的顯著進步源于四個方面的升級:
- 擴展版的領(lǐng)域?qū)S谜Z言: AlphaGeometry1的領(lǐng)域?qū)S谜Z言僅包含9個謂詞,AlphaGeometry2對其進行了擴展,覆蓋率從66%提升到88%,能夠處理線性方程、點/線/圓的移動以及角度計算等問題。
- 升級版的符號推理引擎DDAR2: DDAR2擁有更快的算法和更強大的功能,能夠處理坐標(biāo)相同的不同名稱的點,時間復(fù)雜度從8次方降低到3次方,并通過C++實現(xiàn)代碼,速度提升了300倍。
- 全新的搜索算法SKEST: SKEST通過多個搜索樹并行運行和知識共享機制,更高效地尋找證明路徑。
- 更強大的語言模型: AlphaGeometry2采用最新的Gemini架構(gòu),并通過三種訓(xùn)練方法進行訓(xùn)練,實驗結(jié)果表明,代數(shù)推理是解決幾何問題的核心,而視覺信息并非關(guān)鍵因素。
AlphaGeometry2的未來與AIMO競賽
雖然AlphaGeometry2已經(jīng)具備了獲得AIMO競賽金牌的能力,但目前并未開源。AIMO競賽為AI設(shè)立,首個獲得金牌的開源AI系統(tǒng)將獲得500萬美元的獎金,這為其他研究團隊提供了機會。2025年IMO競賽將于7月份在澳大利亞舉行,AlphaGeometry2的未來表現(xiàn)值得期待。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破