很快OpenAI能證明陶哲軒錯了?陶哲軒一句話,被OpenAI高管懟回去
新智元報道編輯:桃子 LRS【新智元導(dǎo)讀】o1推理代表著推理的未來。菲爾茲獎得主陶哲軒在OpenAI最新訪談中表示,AI可以幫助從頭開始重新設(shè)計數(shù)學(xué),以前所未有的規(guī)模處理數(shù)學(xué)問題,引領(lǐng)著一個全新的發(fā)現(xiàn)時代。這周,OpenAI連更兩彈,又將o1模型推向全網(wǎng)最。就連奧特曼本人激動地預(yù)告,「迫不及待期待著下周的Day 3發(fā)布,感覺周一是那么地遙遠(yuǎn)」。首更第一天,放出的滿血版o1,相較于之前的o1-preview在數(shù)學(xué)、代碼能力上大幅提升,分別暴漲了27%。o1 Pro版數(shù)學(xué)性能更是飆升36%。作為o1早期的訪問者,菲爾茲獎得主陶哲軒在OpenAI研究高級副總Mark Chen訪談中,暢聊了o1推理的數(shù)學(xué)未來。OpenAI科學(xué)政策與合作負(fù)責(zé)人James Donovan主持這場采訪這場對談以1小時的討論開始,然后是30分鐘的問答環(huán)節(jié),含金量就不用多說了。9月o1-preview發(fā)布之后,大西洋月刊曾寫道,陶哲軒描述了一種前所未有的、由AI驅(qū)動的「工業(yè)級數(shù)學(xué)」。至少在近期,AI并非的創(chuàng)造性合作者,而更像是數(shù)學(xué)家假設(shè)和方法的潤滑劑。簡言之,AI還僅僅是一種輔助的工具。這種新的數(shù)學(xué)協(xié)作模式,可以揭開知識的神秘面紗,保持人類創(chuàng)造力的核心地位。不知這次,天才數(shù)學(xué)家又是如何看待o1的?一個全新的發(fā)現(xiàn)時代,正式開啟陶哲軒稱,我認(rèn)為這可能開啟一個新的發(fā)現(xiàn)時代。當(dāng)前,數(shù)學(xué)家們一次只能專注單個問題,花費數(shù)月時間解決完一個問題后,再去攻克下一個問題。但有了這些工具,我們可能同時處理數(shù)百個,甚至數(shù)千個問題,同時開展完全不同類型的數(shù)學(xué)研究。一想到這種可能性,讓他異常地非常興奮。Mark Chen肯定道,「太酷了。沒錯,在過去一年中,我們的主要關(guān)注點之一是推理能力。自GPT-4發(fā)布以來,團(tuán)隊稍微轉(zhuǎn)移了研究的重點」。GPT-4學(xué)習(xí)了很多世界知識,是一個非常智能的模型。但不得不承認(rèn)地是,它在很多方面也表現(xiàn)得很愚蠢,會在簡單的謎題上犯錯,而且經(jīng)常過度依賴先驗知識。比如,如果它對某個謎題應(yīng)該如何發(fā)展有某種先驗認(rèn)知,它往往會陷入相同的模式匹配錯誤。正是這些問題,向OpenAI團(tuán)隊指出了模型在深度推理能力方面的不足。因此,我們才看到了O系列模型的誕生。它們更像是System 2的慢思考者,而非System 1快思考者。在給出回應(yīng)之前,模型需要花費一定時間去反思問題。有傳言稱,在OpenAI總部有一個o1實例已經(jīng)持續(xù)運行/思考了6個月之久…..AI解耦數(shù)學(xué)任務(wù),開啟全新協(xié)作模式主持人James Donovan接著問道,「你所描述的『工業(yè)級數(shù)學(xué)』是一個怎樣的未來,包括數(shù)學(xué)合作的不同方式,能否具體展開描述下」?陶哲軒稱,數(shù)學(xué)一直以來被認(rèn)為是一項非常困難的活動。原因之一是,它依賴于一個人,或者可能是少部分人來完成許多不同的任務(wù),去實現(xiàn)一個復(fù)雜的目標(biāo)。如果你想在數(shù)學(xué)上取得進(jìn)步,必須首先提出一個好問題,然后再找到解決它的工具。再之后,還得學(xué)習(xí)各種文獻(xiàn),嘗試一些論點,還得進(jìn)行計算、檢查算法。如果結(jié)果是正確的,你還必須以一種可解釋的方式寫下來等等,集合了不同的技能。在其他行業(yè)中,我們有勞動分工,就像制作一部電影一樣,需要不同的人同時負(fù)責(zé)制片、剪輯、演出和融資等所有工作。陶哲軒表示,在數(shù)學(xué)領(lǐng)域,直到最近我們才找到一種解耦這些任務(wù)的方法。原則上。可以實現(xiàn)這樣的協(xié)作:一個人負(fù)責(zé)構(gòu)想,一個人或AI負(fù)責(zé)計算,另一個工具負(fù)責(zé)寫論文等。這樣就不需要一個人在所有方面都成為專家。我認(rèn)為,很多人不敢從事數(shù)學(xué)研究,是因為他們看到了成為一個優(yōu)秀數(shù)學(xué)家所需要完成的所有事項清單。這確實令人望而生畏。不過AI工具能夠讓一些重復(fù)性工作被解耦,變得更加模塊化。一些任務(wù)由AI完成,一些由人類完成,有些任務(wù)可能需要預(yù)先協(xié)助,有時甚至可以由普通大眾來完成。Mark Chen好奇問道,不考慮AI的情況下,迄今為止,最大規(guī)模的數(shù)學(xué)合作項目中,能夠同時合作的人數(shù)上限是多少?陶哲軒表示,在真正的實踐中,限制大約是5-6人。超過了這一閾值,就真的很難了,因為你必須互相檢查彼此的工作,還要考慮把所有人召集在同一個房間等問題。確實有少數(shù)項目有很多作者,比如證明形式化項目,大約有20-30個作者,這是數(shù)學(xué)領(lǐng)域中為數(shù)不多的。目前,已經(jīng)的如何眾包任務(wù)方式之一是,將其放在GitHub上,都使用Lean這樣的形式化語言,所有的貢獻(xiàn)都可以被驗證。主持人James Donovan問道,當(dāng)你解釋這些時,聽起來你的默認(rèn)假設(shè)是人類仍將分配任務(wù),他們?nèi)詫φ麄€過程有足夠的理解來決定誰在哪里做什么。你是否認(rèn)為數(shù)學(xué)家角色是否會分化,是否會出現(xiàn)新的專業(yè)方向?陶哲軒表示,我認(rèn)為軟件工程可能是數(shù)學(xué)未來發(fā)展的一個可借鑒的模板。過去,可能有一個英雄式的程序員包攬一切,就像現(xiàn)在的數(shù)學(xué)家那樣。但現(xiàn)在,我們有項目經(jīng)理、程序員和質(zhì)量保證團(tuán)隊等等。我們可以想象現(xiàn)在就這樣做。他稱,我目前參與的幾個協(xié)作項目就同時包含理論數(shù)學(xué)部分和形式化證明部分。人們還在運行各種代碼算法等。而且正如我所預(yù)期的那樣,已經(jīng)開始出現(xiàn)專業(yè)化分工。有些人可能不懂?dāng)?shù)學(xué),但他們非常擅長形式化定理,對他們來說這就像解謎題一樣。還有一些人擅長管理GitHub和做項目管理,確保所有后端工作順利進(jìn)行。還有人負(fù)責(zé)數(shù)據(jù)可視化等工作。我們都在協(xié)調(diào)合作。到目前為止,主要還是人類在工作,使用的是更傳統(tǒng)的AI工具,比如改進(jìn)器(improvers),通常就是運行Python代碼之類的。「但我認(rèn)為,一旦AI足夠強(qiáng)大,它會很自然地融入這個范式中」。Mark Chen同樣表示,對我來說也是這樣的。在很多方面,我?guī)缀醢袮I當(dāng)作同事看待。有些我不擅長的事情,我可以交給AI去做。雖然我不是數(shù)學(xué)家,但就AI在幫助解決數(shù)學(xué)問題方面的優(yōu)勢而言,首先可能就是模式識別。機(jī)器在這方面相當(dāng)擅長,特別是在需要處理大量數(shù)據(jù)或信息的時候。從識別模式開始,就可以形成推測。我認(rèn)為AI在這方面可能有獨特的優(yōu)勢。針對制定證明策略,我認(rèn)為現(xiàn)在人類可能在判斷正確步驟方面仍有更好的直覺。但也許在某個特定步驟上,人類也可能會有盲點。此外,在驗證方面,模型能夠驗證某些你認(rèn)為正確,但想要再次確認(rèn)的步驟。還有就是生成反例,比如當(dāng)你想要考慮很多可能使定理失效的情況時,模型可能比你更有效率地窮盡這些可能性。主持人再次問道,可以說,你們都認(rèn)為改進(jìn)器在進(jìn)行數(shù)學(xué)研究和使用LLM或類似技術(shù)之間,必要的中間層嗎?陶哲軒表示,基本上是這樣的。數(shù)學(xué)證明的特點是,如果一個證明有100個步驟,其中一個出錯了,整個證明就可能完全崩塌。而AI,我們知道它會犯各種錯誤。在某些類型的數(shù)學(xué)科學(xué)中,一定的錯誤率是可以接受的。就像Mark所說的,比如在模式識別、形成猜想時,即使AI只有50%的正確率也是可以接受的,只要你有其他方法去驗證。特別是當(dāng)它試圖輸出論證時,AI使用類似Lean形式化語言輸出是很自然的協(xié)同方式。如果能編譯通過就很好,如果不能,它會返回錯誤信息。當(dāng)前,人們已經(jīng)實現(xiàn)了這點,他們可以用這種迭代技術(shù)證明一些本科作業(yè)級別的簡短證明。當(dāng)然,現(xiàn)在還不能直接問一個高層次的數(shù)學(xué)問題,就期待它輸出一個龐大的證明。接下來,陶哲軒提到了,雖然Alphaproof可以用3天的計算時間做到,但這種方法無法擴(kuò)展。對于一些可以接受正向錯誤率的簡單問題,你不需要形式化證明助手。但對于任何錯誤可能會傳播的復(fù)雜問題,形式化證明助手基本上是不可或缺的。人類數(shù)學(xué)美學(xué),AI難以復(fù)刻數(shù)學(xué),也有自己的美學(xué)。陶哲軒表示,就像關(guān)注抽象概念一樣,我認(rèn)為人類對數(shù)學(xué)有一種特殊的美學(xué)感覺,這種感覺與數(shù)學(xué)的核心是緊密相連的。因為這種美學(xué)感受是由人類來判斷的,所以AI模型在定義問題和品味方面可能會更難模仿這一點。不過,陶哲軒還認(rèn)為,AI在數(shù)學(xué)領(lǐng)域的應(yīng)用將帶來一種 「不同的美」,計算機(jī)生成的證明將有別于人類生成的證明,具有自己的一種優(yōu)雅。數(shù)學(xué)和AI合作未來接下來,James Donovan提出三連問,「你對年輕數(shù)學(xué)家有什么建議嗎?他們應(yīng)該把重點放在哪里?應(yīng)該解決什么樣的問題?」陶哲軒認(rèn)為,年輕數(shù)學(xué)家必須保持靈活性,因為數(shù)學(xué)已經(jīng)逐漸變成了一個技術(shù)性學(xué)科,越來越考驗協(xié)作性。50年前,數(shù)學(xué)家還可以解決某個子問題,但現(xiàn)在幾乎行不通了,不過對于數(shù)學(xué)來說,也算是良性發(fā)展了,通過利用AI,數(shù)學(xué)家們可以進(jìn)行更廣泛的合作,幫助互相補(bǔ)齊知識。但需要注意的是,這些工具也有局限性,不能盲目,要用自己作為人類的聰明才智來馴服、監(jiān)督AI,而不是把AI當(dāng)作一根魔法棒。James Donovan表示,OpenAI也不鼓勵人們盲目相信AI,如果沒有足夠的專業(yè)知識,就會陷入另一個技術(shù)陷阱。為了更好地利用AI工具,Mark Chen建議現(xiàn)在的學(xué)生認(rèn)真學(xué)好各自領(lǐng)域內(nèi)的技術(shù)知識,然后參與一點人工智能相關(guān)的研究,至少要了解神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識,比如如何訓(xùn)練模型,底層運行機(jī)制,以及局限性。人們越是對AI的能力保持懷疑,越是會提升自己與AI工具的協(xié)作效率。1%最難數(shù)學(xué)題,AI還未取得突破針對「谷歌DeepMind拿下IMO奧數(shù)銀牌」一事,James Donovan詢問陶哲軒是否對這一進(jìn)展感到出乎意料。陶哲軒表示,確實相當(dāng)超出預(yù)期,過去幾年中一直有很多相關(guān)工作,比如DeepMind在IMO數(shù)據(jù)中合成了很多證明過程,但大部分都是錯誤的,所以普遍觀點是這條路并不可行,但現(xiàn)在卻一下子實現(xiàn)了。還有一個問題是,目前的AI還只停留在數(shù)據(jù)階段,并沒有想象中的那么有用,只是解決了2000萬個小的數(shù)學(xué)問題,理想中的AI系統(tǒng)是能夠解決一個大問題。目前數(shù)學(xué)項目里的問題,99%都可以通過傳統(tǒng)的暴力搜索解決,但還有1%是相當(dāng)困難,且需要人為干預(yù)的,而正是這1%的問題最具挑戰(zhàn)性,直擊AI技術(shù)的本質(zhì),目前的突破不算特別有意義。James Donovan則提出疑問,現(xiàn)在的工作主要是教模型以一種特定的方式進(jìn)行推理,那思路應(yīng)該一個模型,多種類型推理;還是多個模型來應(yīng)對多種推理?進(jìn)一步,需要什么樣的推理才能讓AI解鎖這些有難度的小問題?Mark Chen的思路是大道至簡,并不需要單獨設(shè)計多個模型,簡單也是開發(fā)AI產(chǎn)品的關(guān)鍵咒語。但在連接復(fù)雜系統(tǒng)的時候,可以由人來建立結(jié)構(gòu),讓AI模型以某種方式進(jìn)行合作。增加數(shù)據(jù),比如一萬個類似的樣本,讓模型學(xué)習(xí)推理模式,未來或許從這方面探索一下。陶哲軒則認(rèn)為,AI的問題解決和人類是非?;パa(bǔ)的,AI主要以數(shù)據(jù)驅(qū)動的解決問題的方式,對于某些任務(wù),AI實際上比人類更重要,但人類需要做的是,重新校準(zhǔn)對某些問題的難度感知,或許只是因為之前沒有嘗試使用數(shù)據(jù)驅(qū)動的方法來解決那些經(jīng)典問題。數(shù)學(xué)中,有些問題真的很難,甚至都無法被確定,也沒有大量的可用數(shù)據(jù)來學(xué)習(xí),甚至無法繼續(xù)證明這些問題無法被證明,而這些問題正是人類擅長,而AI不擅長的事。如果僅僅以智力作為唯一評估尺度,可能是不夠的,所以AI和人類進(jìn)行互補(bǔ)或許才是終極解決方案。Mark Chen則打趣道,我希望我們的研究計劃能成功,構(gòu)造一個非常高效的數(shù)據(jù)推理器,然后證明你是錯的。陶哲軒則表示,我也很希望被證明我是錯的!AI在數(shù)學(xué)定理發(fā)現(xiàn)和檢索方面的潛力在做數(shù)學(xué)研究時,一個最讓人崩潰的事,莫過于其他人搶占了先機(jī),而你自己并不知道。比如在試圖證明一個小引理時,就算你心里知道肯定有100個人證明過了,可能是在代數(shù)、幾何,還是社區(qū)代數(shù)、群論、Pds等領(lǐng)域,但就是很難找到答案。對于問題「是否在不久的將來,人們可以很輕松地檢索到某些數(shù)學(xué)定理?」,陶哲軒表示,把數(shù)學(xué)計算機(jī)化,并支持檢索,是一個很棒的想法。OpenAI的o1模型實際上已經(jīng)開始做了一點點,比如對于某個定理,你大概知道是什么,但不記得名字了,所以沒辦法用搜索引擎,或者從大量論文中檢索某個定理,這些都是很關(guān)鍵的使用場景。AI可解釋性的理論滯后AI經(jīng)常會有幻覺問題,生成的答案可能是不正確的,人工檢查非常關(guān)鍵。比如ChatGPT說周六下午兩點有一場歌劇,去了以后發(fā)現(xiàn)并沒有,這種問題帶來的損失還算比較小,并且可驗證,但在科研領(lǐng)域,比如AI輔助藥物開發(fā),用戶也不知道真正的答案,也無從驗證,還會帶來長遠(yuǎn)的影響。對于這個問題,Mark Chen鼓勵用戶在使用大模型時結(jié)合搜索結(jié)果,模型會引用特定的網(wǎng)站或特定的來源來反映真實情況,未來模型也會更精確,用戶可以到網(wǎng)站上自行檢查結(jié)論。需要注意的是,o1目前還不具備搜索能力。反哺數(shù)學(xué)歷史上,總是先有數(shù)學(xué)或數(shù)學(xué)理論,再有其他如物理學(xué)、化學(xué)等進(jìn)行理論應(yīng)用。隨著AI的進(jìn)步,比如物理學(xué),已經(jīng)有人開始使用機(jī)器學(xué)習(xí)來模擬像Pds的計算解和傳統(tǒng)方法無法解決的問題,數(shù)學(xué)是否也從其他領(lǐng)域獲得了理論上的新思路?還是說只是生成了更多數(shù)據(jù)?陶哲軒回應(yīng)說,數(shù)學(xué)是一條非常寬的雙向車道,比如物理學(xué)家可能已經(jīng)發(fā)現(xiàn)了數(shù)學(xué)原理,但沒有解釋,然后還需要再回過頭發(fā)展數(shù)學(xué)理論。比如狄拉克發(fā)明了狄拉克δ函數(shù)的東西,根據(jù)正統(tǒng)數(shù)學(xué),它并不是一個函數(shù),所以我們還需要擴(kuò)大對函數(shù)的概念,所以理論發(fā)現(xiàn)永遠(yuǎn)是雙向的??梢韵胂蟮剑粋€非常實用的、科學(xué)驅(qū)動的應(yīng)用程序,可能由于人工智能發(fā)現(xiàn)一些新現(xiàn)象而無法解釋,或許是經(jīng)驗上的發(fā)現(xiàn),然后促使科研人員利用數(shù)學(xué)工具去尋找理論解釋。演講者介紹陶哲軒是加州大學(xué)洛杉磯分校的數(shù)學(xué)教授,研究領(lǐng)域包括調(diào)和分析、偏微分方程、組合學(xué)和數(shù)論。他曾獲得了多項大獎,包括2006年菲爾茲獎。Mark Chen是OpenAI研究高級副總裁,負(fù)責(zé)監(jiān)督高級人工智能計劃,推動語言模型、強(qiáng)化學(xué)習(xí)、多模態(tài)模型和人工智能對齊方面的創(chuàng)新。James Donovan領(lǐng)導(dǎo)GA的科學(xué)政策和合作伙伴關(guān)系,專注于如何最好地使用模型來加速科學(xué)研究和商業(yè)化。他加入OpenAI之前,曾是Convergent Research的創(chuàng)始人、風(fēng)險投資人和合伙人;在那里,他幫助創(chuàng)辦了多個「登月」科學(xué)組織,包括Lean Fro(一種復(fù)雜數(shù)學(xué)的自動定理證明器)。參考資料:https://x.com/apples_jimmy/status/1864191140842623375/photo/1