<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        很快OpenAI能證明陶哲軒錯(cuò)了?陶哲軒一句話,被OpenAI高管懟回去

        AIGC動(dòng)態(tài)9個(gè)月前發(fā)布 新智元
        461 0 0

        新智元報(bào)道編輯:桃子 LRS【新智元導(dǎo)讀】o1推理代表著推理的未來。菲爾茲獎(jiǎng)得主陶哲軒在OpenAI最新訪談中表示,AI可以幫助從頭開始重新設(shè)計(jì)數(shù)學(xué),以前所未有的規(guī)模處理數(shù)學(xué)問題,引領(lǐng)著一個(gè)全新的發(fā)現(xiàn)時(shí)代。這周,OpenAI連更兩彈,又將o1模型推向全網(wǎng)最。就連奧特曼本人激動(dòng)地預(yù)告,「迫不及待期待著下周的Day 3發(fā)布,感覺周一是那么地遙遠(yuǎn)」。首更第一天,放出的滿血版o1,相較于之前的o1-preview在數(shù)學(xué)、代碼能力上大幅提升,分別暴漲了27%。o1 Pro版數(shù)學(xué)性能更是飆升36%。作為o1早期的訪問者,菲爾茲獎(jiǎng)得主陶哲軒在OpenAI研究高級副總Mark Chen訪談中,暢聊了o1推理的數(shù)學(xué)未來。OpenAI科學(xué)政策與合作負(fù)責(zé)人James Donovan主持這場采訪這場對談以1小時(shí)的討論開始,然后是30分鐘的問答環(huán)節(jié),含金量就不用多說了。9月o1-preview發(fā)布之后,大西洋月刊曾寫道,陶哲軒描述了一種前所未有的、由AI驅(qū)動(dòng)的「工業(yè)級數(shù)學(xué)」。至少在近期,AI并非的創(chuàng)造性合作者,而更像是數(shù)學(xué)家假設(shè)和方法的潤滑劑。簡言之,AI還僅僅是一種輔助的工具。這種新的數(shù)學(xué)協(xié)作模式,可以揭開知識的神秘面紗,保持人類創(chuàng)造力的核心地位。不知這次,天才數(shù)學(xué)家又是如何看待o1的?一個(gè)全新的發(fā)現(xiàn)時(shí)代,正式開啟陶哲軒稱,我認(rèn)為這可能開啟一個(gè)新的發(fā)現(xiàn)時(shí)代。當(dāng)前,數(shù)學(xué)家們一次只能專注單個(gè)問題,花費(fèi)數(shù)月時(shí)間解決完一個(gè)問題后,再去攻克下一個(gè)問題。但有了這些工具,我們可能同時(shí)處理數(shù)百個(gè),甚至數(shù)千個(gè)問題,同時(shí)開展完全不同類型的數(shù)學(xué)研究。一想到這種可能性,讓他異常地非常興奮。Mark Chen肯定道,「太酷了。沒錯(cuò),在過去一年中,我們的主要關(guān)注點(diǎn)之一是推理能力。自GPT-4發(fā)布以來,團(tuán)隊(duì)稍微轉(zhuǎn)移了研究的重點(diǎn)」。GPT-4學(xué)習(xí)了很多世界知識,是一個(gè)非常智能的模型。但不得不承認(rèn)地是,它在很多方面也表現(xiàn)得很愚蠢,會在簡單的謎題上犯錯(cuò),而且經(jīng)常過度依賴先驗(yàn)知識。比如,如果它對某個(gè)謎題應(yīng)該如何發(fā)展有某種先驗(yàn)認(rèn)知,它往往會陷入相同的模式匹配錯(cuò)誤。正是這些問題,向OpenAI團(tuán)隊(duì)指出了模型在深度推理能力方面的不足。因此,我們才看到了O系列模型的誕生。它們更像是System 2的慢思考者,而非System 1快思考者。在給出回應(yīng)之前,模型需要花費(fèi)一定時(shí)間去反思問題。有傳言稱,在OpenAI總部有一個(gè)o1實(shí)例已經(jīng)持續(xù)運(yùn)行/思考了6個(gè)月之久…..AI解耦數(shù)學(xué)任務(wù),開啟全新協(xié)作模式主持人James Donovan接著問道,「你所描述的『工業(yè)級數(shù)學(xué)』是一個(gè)怎樣的未來,包括數(shù)學(xué)合作的不同方式,能否具體展開描述下」?陶哲軒稱,數(shù)學(xué)一直以來被認(rèn)為是一項(xiàng)非常困難的活動(dòng)。原因之一是,它依賴于一個(gè)人,或者可能是少部分人來完成許多不同的任務(wù),去實(shí)現(xiàn)一個(gè)復(fù)雜的目標(biāo)。如果你想在數(shù)學(xué)上取得進(jìn)步,必須首先提出一個(gè)好問題,然后再找到解決它的工具。再之后,還得學(xué)習(xí)各種文獻(xiàn),嘗試一些論點(diǎn),還得進(jìn)行計(jì)算、檢查算法。如果結(jié)果是正確的,你還必須以一種可解釋的方式寫下來等等,集合了不同的技能。在其他行業(yè)中,我們有勞動(dòng)分工,就像制作一部電影一樣,需要不同的人同時(shí)負(fù)責(zé)制片、剪輯、演出和融資等所有工作。陶哲軒表示,在數(shù)學(xué)領(lǐng)域,直到最近我們才找到一種解耦這些任務(wù)的方法。原則上。可以實(shí)現(xiàn)這樣的協(xié)作:一個(gè)人負(fù)責(zé)構(gòu)想,一個(gè)人或AI負(fù)責(zé)計(jì)算,另一個(gè)工具負(fù)責(zé)寫論文等。這樣就不需要一個(gè)人在所有方面都成為專家。我認(rèn)為,很多人不敢從事數(shù)學(xué)研究,是因?yàn)樗麄兛吹搅顺蔀橐粋€(gè)優(yōu)秀數(shù)學(xué)家所需要完成的所有事項(xiàng)清單。這確實(shí)令人望而生畏。不過AI工具能夠讓一些重復(fù)性工作被解耦,變得更加模塊化。一些任務(wù)由AI完成,一些由人類完成,有些任務(wù)可能需要預(yù)先協(xié)助,有時(shí)甚至可以由普通大眾來完成。Mark Chen好奇問道,不考慮AI的情況下,迄今為止,最大規(guī)模的數(shù)學(xué)合作項(xiàng)目中,能夠同時(shí)合作的人數(shù)上限是多少?陶哲軒表示,在真正的實(shí)踐中,限制大約是5-6人。超過了這一閾值,就真的很難了,因?yàn)槟惚仨毣ハ鄼z查彼此的工作,還要考慮把所有人召集在同一個(gè)房間等問題。確實(shí)有少數(shù)項(xiàng)目有很多作者,比如證明形式化項(xiàng)目,大約有20-30個(gè)作者,這是數(shù)學(xué)領(lǐng)域中為數(shù)不多的。目前,已經(jīng)的如何眾包任務(wù)方式之一是,將其放在GitHub上,都使用Lean這樣的形式化語言,所有的貢獻(xiàn)都可以被驗(yàn)證。主持人James Donovan問道,當(dāng)你解釋這些時(shí),聽起來你的默認(rèn)假設(shè)是人類仍將分配任務(wù),他們?nèi)詫φ麄€(gè)過程有足夠的理解來決定誰在哪里做什么。你是否認(rèn)為數(shù)學(xué)家角色是否會分化,是否會出現(xiàn)新的專業(yè)方向?陶哲軒表示,我認(rèn)為軟件工程可能是數(shù)學(xué)未來發(fā)展的一個(gè)可借鑒的模板。過去,可能有一個(gè)英雄式的程序員包攬一切,就像現(xiàn)在的數(shù)學(xué)家那樣。但現(xiàn)在,我們有項(xiàng)目經(jīng)理、程序員和質(zhì)量保證團(tuán)隊(duì)等等。我們可以想象現(xiàn)在就這樣做。他稱,我目前參與的幾個(gè)協(xié)作項(xiàng)目就同時(shí)包含理論數(shù)學(xué)部分和形式化證明部分。人們還在運(yùn)行各種代碼算法等。而且正如我所預(yù)期的那樣,已經(jīng)開始出現(xiàn)專業(yè)化分工。有些人可能不懂?dāng)?shù)學(xué),但他們非常擅長形式化定理,對他們來說這就像解謎題一樣。還有一些人擅長管理GitHub和做項(xiàng)目管理,確保所有后端工作順利進(jìn)行。還有人負(fù)責(zé)數(shù)據(jù)可視化等工作。我們都在協(xié)調(diào)合作。到目前為止,主要還是人類在工作,使用的是更傳統(tǒng)的AI工具,比如改進(jìn)器(improvers),通常就是運(yùn)行Python代碼之類的。「但我認(rèn)為,一旦AI足夠強(qiáng)大,它會很自然地融入這個(gè)范式中」。Mark Chen同樣表示,對我來說也是這樣的。在很多方面,我?guī)缀醢袮I當(dāng)作同事看待。有些我不擅長的事情,我可以交給AI去做。雖然我不是數(shù)學(xué)家,但就AI在幫助解決數(shù)學(xué)問題方面的優(yōu)勢而言,首先可能就是模式識別。機(jī)器在這方面相當(dāng)擅長,特別是在需要處理大量數(shù)據(jù)或信息的時(shí)候。從識別模式開始,就可以形成推測。我認(rèn)為AI在這方面可能有獨(dú)特的優(yōu)勢。針對制定證明策略,我認(rèn)為現(xiàn)在人類可能在判斷正確步驟方面仍有更好的直覺。但也許在某個(gè)特定步驟上,人類也可能會有盲點(diǎn)。此外,在驗(yàn)證方面,模型能夠驗(yàn)證某些你認(rèn)為正確,但想要再次確認(rèn)的步驟。還有就是生成反例,比如當(dāng)你想要考慮很多可能使定理失效的情況時(shí),模型可能比你更有效率地窮盡這些可能性。主持人再次問道,可以說,你們都認(rèn)為改進(jìn)器在進(jìn)行數(shù)學(xué)研究和使用LLM或類似技術(shù)之間,必要的中間層嗎?陶哲軒表示,基本上是這樣的。數(shù)學(xué)證明的特點(diǎn)是,如果一個(gè)證明有100個(gè)步驟,其中一個(gè)出錯(cuò)了,整個(gè)證明就可能完全崩塌。而AI,我們知道它會犯各種錯(cuò)誤。在某些類型的數(shù)學(xué)科學(xué)中,一定的錯(cuò)誤率是可以接受的。就像Mark所說的,比如在模式識別、形成猜想時(shí),即使AI只有50%的正確率也是可以接受的,只要你有其他方法去驗(yàn)證。特別是當(dāng)它試圖輸出論證時(shí),AI使用類似Lean形式化語言輸出是很自然的協(xié)同方式。如果能編譯通過就很好,如果不能,它會返回錯(cuò)誤信息。當(dāng)前,人們已經(jīng)實(shí)現(xiàn)了這點(diǎn),他們可以用這種迭代技術(shù)證明一些本科作業(yè)級別的簡短證明。當(dāng)然,現(xiàn)在還不能直接問一個(gè)高層次的數(shù)學(xué)問題,就期待它輸出一個(gè)龐大的證明。接下來,陶哲軒提到了,雖然Alphaproof可以用3天的計(jì)算時(shí)間做到,但這種方法無法擴(kuò)展。對于一些可以接受正向錯(cuò)誤率的簡單問題,你不需要形式化證明助手。但對于任何錯(cuò)誤可能會傳播的復(fù)雜問題,形式化證明助手基本上是不可或缺的。人類數(shù)學(xué)美學(xué),AI難以復(fù)刻數(shù)學(xué),也有自己的美學(xué)。陶哲軒表示,就像關(guān)注抽象概念一樣,我認(rèn)為人類對數(shù)學(xué)有一種特殊的美學(xué)感覺,這種感覺與數(shù)學(xué)的核心是緊密相連的。因?yàn)檫@種美學(xué)感受是由人類來判斷的,所以AI模型在定義問題和品味方面可能會更難模仿這一點(diǎn)。不過,陶哲軒還認(rèn)為,AI在數(shù)學(xué)領(lǐng)域的應(yīng)用將帶來一種 「不同的美」,計(jì)算機(jī)生成的證明將有別于人類生成的證明,具有自己的一種優(yōu)雅。數(shù)學(xué)和AI合作未來接下來,James Donovan提出三連問,「你對年輕數(shù)學(xué)家有什么建議嗎?他們應(yīng)該把重點(diǎn)放在哪里?應(yīng)該解決什么樣的問題?」陶哲軒認(rèn)為,年輕數(shù)學(xué)家必須保持靈活性,因?yàn)閿?shù)學(xué)已經(jīng)逐漸變成了一個(gè)技術(shù)性學(xué)科,越來越考驗(yàn)協(xié)作性。50年前,數(shù)學(xué)家還可以解決某個(gè)子問題,但現(xiàn)在幾乎行不通了,不過對于數(shù)學(xué)來說,也算是良性發(fā)展了,通過利用AI,數(shù)學(xué)家們可以進(jìn)行更廣泛的合作,幫助互相補(bǔ)齊知識。但需要注意的是,這些工具也有局限性,不能盲目,要用自己作為人類的聰明才智來馴服、監(jiān)督AI,而不是把AI當(dāng)作一根魔法棒。James Donovan表示,OpenAI也不鼓勵(lì)人們盲目相信AI,如果沒有足夠的專業(yè)知識,就會陷入另一個(gè)技術(shù)陷阱。為了更好地利用AI工具,Mark Chen建議現(xiàn)在的學(xué)生認(rèn)真學(xué)好各自領(lǐng)域內(nèi)的技術(shù)知識,然后參與一點(diǎn)人工智能相關(guān)的研究,至少要了解神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識,比如如何訓(xùn)練模型,底層運(yùn)行機(jī)制,以及局限性。人們越是對AI的能力保持懷疑,越是會提升自己與AI工具的協(xié)作效率。1%最難數(shù)學(xué)題,AI還未取得突破針對「谷歌DeepMind拿下IMO奧數(shù)銀牌」一事,James Donovan詢問陶哲軒是否對這一進(jìn)展感到出乎意料。陶哲軒表示,確實(shí)相當(dāng)超出預(yù)期,過去幾年中一直有很多相關(guān)工作,比如DeepMind在IMO數(shù)據(jù)中合成了很多證明過程,但大部分都是錯(cuò)誤的,所以普遍觀點(diǎn)是這條路并不可行,但現(xiàn)在卻一下子實(shí)現(xiàn)了。還有一個(gè)問題是,目前的AI還只停留在數(shù)據(jù)階段,并沒有想象中的那么有用,只是解決了2000萬個(gè)小的數(shù)學(xué)問題,理想中的AI系統(tǒng)是能夠解決一個(gè)大問題。目前數(shù)學(xué)項(xiàng)目里的問題,99%都可以通過傳統(tǒng)的暴力搜索解決,但還有1%是相當(dāng)困難,且需要人為干預(yù)的,而正是這1%的問題最具挑戰(zhàn)性,直擊AI技術(shù)的本質(zhì),目前的突破不算特別有意義。James Donovan則提出疑問,現(xiàn)在的工作主要是教模型以一種特定的方式進(jìn)行推理,那思路應(yīng)該一個(gè)模型,多種類型推理;還是多個(gè)模型來應(yīng)對多種推理?進(jìn)一步,需要什么樣的推理才能讓AI解鎖這些有難度的小問題?Mark Chen的思路是大道至簡,并不需要單獨(dú)設(shè)計(jì)多個(gè)模型,簡單也是開發(fā)AI產(chǎn)品的關(guān)鍵咒語。但在連接復(fù)雜系統(tǒng)的時(shí)候,可以由人來建立結(jié)構(gòu),讓AI模型以某種方式進(jìn)行合作。增加數(shù)據(jù),比如一萬個(gè)類似的樣本,讓模型學(xué)習(xí)推理模式,未來或許從這方面探索一下。陶哲軒則認(rèn)為,AI的問題解決和人類是非常互補(bǔ)的,AI主要以數(shù)據(jù)驅(qū)動(dòng)的解決問題的方式,對于某些任務(wù),AI實(shí)際上比人類更重要,但人類需要做的是,重新校準(zhǔn)對某些問題的難度感知,或許只是因?yàn)橹皼]有嘗試使用數(shù)據(jù)驅(qū)動(dòng)的方法來解決那些經(jīng)典問題。數(shù)學(xué)中,有些問題真的很難,甚至都無法被確定,也沒有大量的可用數(shù)據(jù)來學(xué)習(xí),甚至無法繼續(xù)證明這些問題無法被證明,而這些問題正是人類擅長,而AI不擅長的事。如果僅僅以智力作為唯一評估尺度,可能是不夠的,所以AI和人類進(jìn)行互補(bǔ)或許才是終極解決方案。Mark Chen則打趣道,我希望我們的研究計(jì)劃能成功,構(gòu)造一個(gè)非常高效的數(shù)據(jù)推理器,然后證明你是錯(cuò)的。陶哲軒則表示,我也很希望被證明我是錯(cuò)的!AI在數(shù)學(xué)定理發(fā)現(xiàn)和檢索方面的潛力在做數(shù)學(xué)研究時(shí),一個(gè)最讓人崩潰的事,莫過于其他人搶占了先機(jī),而你自己并不知道。比如在試圖證明一個(gè)小引理時(shí),就算你心里知道肯定有100個(gè)人證明過了,可能是在代數(shù)、幾何,還是社區(qū)代數(shù)、群論、Pds等領(lǐng)域,但就是很難找到答案。對于問題「是否在不久的將來,人們可以很輕松地檢索到某些數(shù)學(xué)定理?」,陶哲軒表示,把數(shù)學(xué)計(jì)算機(jī)化,并支持檢索,是一個(gè)很棒的想法。OpenAI的o1模型實(shí)際上已經(jīng)開始做了一點(diǎn)點(diǎn),比如對于某個(gè)定理,你大概知道是什么,但不記得名字了,所以沒辦法用搜索引擎,或者從大量論文中檢索某個(gè)定理,這些都是很關(guān)鍵的使用場景。AI可解釋性的理論滯后AI經(jīng)常會有幻覺問題,生成的答案可能是不正確的,人工檢查非常關(guān)鍵。比如ChatGPT說周六下午兩點(diǎn)有一場歌劇,去了以后發(fā)現(xiàn)并沒有,這種問題帶來的損失還算比較小,并且可驗(yàn)證,但在科研領(lǐng)域,比如AI輔助藥物開發(fā),用戶也不知道真正的答案,也無從驗(yàn)證,還會帶來長遠(yuǎn)的影響。對于這個(gè)問題,Mark Chen鼓勵(lì)用戶在使用大模型時(shí)結(jié)合搜索結(jié)果,模型會引用特定的網(wǎng)站或特定的來源來反映真實(shí)情況,未來模型也會更精確,用戶可以到網(wǎng)站上自行檢查結(jié)論。需要注意的是,o1目前還不具備搜索能力。反哺數(shù)學(xué)歷史上,總是先有數(shù)學(xué)或數(shù)學(xué)理論,再有其他如物理學(xué)、化學(xué)等進(jìn)行理論應(yīng)用。隨著AI的進(jìn)步,比如物理學(xué),已經(jīng)有人開始使用機(jī)器學(xué)習(xí)來模擬像Pds的計(jì)算解和傳統(tǒng)方法無法解決的問題,數(shù)學(xué)是否也從其他領(lǐng)域獲得了理論上的新思路?還是說只是生成了更多數(shù)據(jù)?陶哲軒回應(yīng)說,數(shù)學(xué)是一條非常寬的雙向車道,比如物理學(xué)家可能已經(jīng)發(fā)現(xiàn)了數(shù)學(xué)原理,但沒有解釋,然后還需要再回過頭發(fā)展數(shù)學(xué)理論。比如狄拉克發(fā)明了狄拉克δ函數(shù)的東西,根據(jù)正統(tǒng)數(shù)學(xué),它并不是一個(gè)函數(shù),所以我們還需要擴(kuò)大對函數(shù)的概念,所以理論發(fā)現(xiàn)永遠(yuǎn)是雙向的。可以想象到,一個(gè)非常實(shí)用的、科學(xué)驅(qū)動(dòng)的應(yīng)用程序,可能由于人工智能發(fā)現(xiàn)一些新現(xiàn)象而無法解釋,或許是經(jīng)驗(yàn)上的發(fā)現(xiàn),然后促使科研人員利用數(shù)學(xué)工具去尋找理論解釋。演講者介紹陶哲軒是加州大學(xué)洛杉磯分校的數(shù)學(xué)教授,研究領(lǐng)域包括調(diào)和分析、偏微分方程、組合學(xué)和數(shù)論。他曾獲得了多項(xiàng)大獎(jiǎng),包括2006年菲爾茲獎(jiǎng)。Mark Chen是OpenAI研究高級副總裁,負(fù)責(zé)監(jiān)督高級人工智能計(jì)劃,推動(dòng)語言模型、強(qiáng)化學(xué)習(xí)、多模態(tài)模型和人工智能對齊方面的創(chuàng)新。James Donovan領(lǐng)導(dǎo)GA的科學(xué)政策和合作伙伴關(guān)系,專注于如何最好地使用模型來加速科學(xué)研究和商業(yè)化。他加入OpenAI之前,曾是Convergent Research的創(chuàng)始人、風(fēng)險(xiǎn)投資人和合伙人;在那里,他幫助創(chuàng)辦了多個(gè)「登月」科學(xué)組織,包括Lean Fro(一種復(fù)雜數(shù)學(xué)的自動(dòng)定理證明器)。參考資料:https://x.com/apples_jimmy/status/1864191140842623375/photo/1

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 99在线观看免费视频| 亚洲 欧洲 视频 伦小说| 一级毛片免费观看不收费| 国产成人精品日本亚洲专 | 337P日本欧洲亚洲大胆艺术图| 男女超爽视频免费播放| 成人性生活免费视频| 亚洲美国产亚洲AV| 日本免费v片一二三区| 亚洲国产精品无码久久98| 日韩成人免费aa在线看| 边摸边吃奶边做爽免费视频网站| 日本无吗免费一二区| 曰批全过程免费视频免费看| 国产精品亚洲二区在线观看| 精品熟女少妇aⅴ免费久久 | 免费a级毛片无码av| 羞羞网站在线免费观看| 中文字幕精品亚洲无线码一区应用| 男女一进一出抽搐免费视频| 成人爽a毛片免费| 亚洲国产老鸭窝一区二区三区| 亚洲精品免费在线| 亚洲国产综合无码一区| 久久国产精品免费观看| 亚洲区精品久久一区二区三区| yellow视频免费看| 久久久无码精品亚洲日韩蜜桃 | 亚洲中文字幕第一页在线| 免费人成黄页在线观看日本| 亚洲天堂一区在线| 美女巨胸喷奶水视频www免费| 337p日本欧洲亚洲大胆色噜噜| 久久久久免费看黄A片APP| 激情婷婷成人亚洲综合| 亚洲成av人片天堂网| 毛片大全免费观看| 国产精品成人啪精品视频免费| 亚洲日本香蕉视频| 亚洲人成色77777在线观看大| 国产精品亚洲一区二区在线观看|