<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Ilya Sutskever在NeurIPS炸裂宣判:預(yù)訓(xùn)練將結(jié)束,數(shù)據(jù)壓榨到頭了(全文+視頻)

        機(jī)器之心報(bào)道機(jī)器之心編輯部「推理是不可預(yù)測(cè)的,所以我們必須從令人難以置信的,不可預(yù)測(cè)的 AI 系統(tǒng)開(kāi)始。」Ilya 終于現(xiàn)身了,而且一上來(lái)就有驚人之語(yǔ)。本周五,OpenAI 的前首席科學(xué)家 Ilya Sutskever 在全球 AI 頂會(huì)上表示:「我們能獲得的數(shù)據(jù)已經(jīng)到頭,不會(huì)再有更多了。」OpenAI 的聯(lián)合創(chuàng)始人兼前首席科學(xué)家 Ilya Sutskever 今年 5 月離開(kāi)公司,創(chuàng)辦了自己的人工智能實(shí)驗(yàn)室 Safe Superintelligence,成為頭條新聞。自離開(kāi) OpenAI 后他一直遠(yuǎn)離媒體,但本周五在溫哥華舉行的神經(jīng)信息處理系統(tǒng)會(huì)議 NeurIPS 2024 上,他罕見(jiàn)地公開(kāi)露面了。「我們所熟悉的預(yù)訓(xùn)練無(wú)疑會(huì)結(jié)束,」Sutskever 在臺(tái)上說(shuō)。在人工智能領(lǐng)域里,BERT 、GPT 等大規(guī)模預(yù)訓(xùn)練模型(Pre-Training Model)近年來(lái)取得了巨大成功,已經(jīng)成為技術(shù)進(jìn)步道路上的一個(gè)里程碑。由于復(fù)雜的預(yù)訓(xùn)練目標(biāo)和巨大的模型參數(shù),大規(guī)模預(yù)訓(xùn)練可以有效地從大量標(biāo)記和未標(biāo)記的數(shù)據(jù)中獲取知識(shí)。通過(guò)將知識(shí)存儲(chǔ)到巨大的參數(shù)中并對(duì)特定任務(wù)進(jìn)行微調(diào),巨大參數(shù)中隱式編碼的豐富知識(shí)可以使各種下游任務(wù)受益。現(xiàn)在 AI 社區(qū)的是采用預(yù)訓(xùn)練作為下游任務(wù)的主干,而不是從頭開(kāi)始學(xué)習(xí)模型。然而,在他的 NeurIPS 演講中,Ilya Sutskever 表示,盡管現(xiàn)有數(shù)據(jù)仍能推動(dòng)人工智能的發(fā)展,但這個(gè)行業(yè)里稱得上可用的新數(shù)據(jù)上已經(jīng)接近枯竭。他指出,這一趨勢(shì)最終將迫使行業(yè)改變當(dāng)前的模型訓(xùn)練方式。Sutskever 將這一狀況比作化石燃料的消耗:正如石油是有限資源一樣,互聯(lián)網(wǎng)中由人類生成的內(nèi)容也是有限的?!肝覀円呀?jīng)達(dá)到了數(shù)據(jù)的峰值,未來(lái)不會(huì)再有更多數(shù)據(jù),」Sutskever 說(shuō)道。「我們必須利用現(xiàn)有的數(shù)據(jù),因?yàn)榛ヂ?lián)網(wǎng)只有一個(gè)?!筍utskever 預(yù)測(cè),下一代模型將會(huì)「以真正的方式表現(xiàn)出自主性」。另一方面,智能體(Agent)已成為 AI 領(lǐng)域的熱詞。除了具有「自主性」,他還提到未來(lái)的系統(tǒng)將具備推理能力。與當(dāng)今的 AI 主要依賴的模式匹配(基于模型以前見(jiàn)過(guò)的內(nèi)容)不同,未來(lái)的 AI 系統(tǒng)將能夠以類似于「思考」的方式逐步解決問(wèn)題。Sutskever 表示,系統(tǒng)的推理能力越強(qiáng),其行為就越「不可預(yù)測(cè)」。他將「真正具備推理能力的系統(tǒng)」的不可預(yù)測(cè)性與高級(jí) AI 在國(guó)際象棋中的表現(xiàn)進(jìn)行了比較 ——「即使是最優(yōu)秀的人類棋手也無(wú)法預(yù)測(cè)它們的動(dòng)作。」他說(shuō):「這些系統(tǒng)將能夠從有限的數(shù)據(jù)中理解事物,并且不會(huì)感到困惑?!乖谘葜v中,他將 AI 系統(tǒng)的 Scaling 與進(jìn)化生物學(xué)進(jìn)行了比較,并引用了研究中不同物種之間的大腦與體重的比例關(guān)系。他指出,大多數(shù)哺乳動(dòng)物遵循一種特定的 Scaling 模式,而人類科(人類祖先)的腦體比在對(duì)數(shù)尺度上展現(xiàn)出截然不同的增長(zhǎng)趨勢(shì)。Sutskever 提議,就像進(jìn)化為人類科大腦找到了一種新的 Scaling 模式一樣,AI 可能也會(huì)超越現(xiàn)有的預(yù)訓(xùn)練方法,發(fā)現(xiàn)全新的擴(kuò)展路徑。以下是 Ilya Sutskever 的演講全文:我要感謝大會(huì)組織者為這個(gè)獎(jiǎng)項(xiàng)選擇了一篇論文(Ilya Sutskever 等人的 Seq2Seq 論文入選了 NeurIPS 2024 時(shí)間檢驗(yàn)獎(jiǎng))。太好了。我也想感謝我不可思議的合著者 Oriol Vinyals 和 Quoc V. Le,他們剛才就站在你們面前。你這里有一張圖片,一張截圖。10 年前在蒙特利爾的 NIPS 2014 也有類似的演講。那是一個(gè)更加純真的時(shí)代。在這里,我們出現(xiàn)在照片中。順便說(shuō)一下,那是上次,下面這張是這次。現(xiàn)在我們有了更多的經(jīng)驗(yàn),希望現(xiàn)在更聰明一點(diǎn)了。但是在這里,我想談一下這項(xiàng)工作本身,也許還想做一個(gè) 10 年的回顧,因?yàn)檫@項(xiàng)工作中的很多事情是正確的,但有些則不太正確。我們可以回顧它們,看看發(fā)生了什么,以及它是如何把我們引向今天的。所以讓我們開(kāi)始談?wù)勎覀兯龅氖虑椤N覀円龅牡谝患戮褪钦故?10 年前同一個(gè)演講的幻燈片??偨Y(jié)起來(lái)就是三個(gè)要點(diǎn)。一個(gè)基于文本訓(xùn)練的自回歸模型,它是一個(gè)大型神經(jīng)網(wǎng)絡(luò),它是一個(gè)大型數(shù)據(jù)集,就是這樣?,F(xiàn)在讓我們?cè)偕钊胍恍┘?xì)節(jié)。這是 10 年前的一張幻燈片,看起來(lái)不錯(cuò),「深度學(xué)習(xí)假說(shuō)」。我們?cè)谶@里說(shuō)的是,如果你有一個(gè)具有 10 層的大型神經(jīng)網(wǎng)絡(luò),但它可以在幾分之一秒內(nèi)完類可以做的任何事情。為什么我們要強(qiáng)調(diào)「人類可以在幾分之一秒內(nèi)完成的事情」?為什么是這件事?好吧,如果你相信深度學(xué)習(xí)的教條,人工神經(jīng)元和生物神經(jīng)元是相似的,或者至少不是太不同,并且你相信三個(gè)真正的神經(jīng)元是緩慢的,那么人類可以快速處理任何事情。我甚至指的是假如全世界只有一個(gè)人。如果全世界有一個(gè)人可以在幾分之一秒內(nèi)完成某些任務(wù),那么 10 層神經(jīng)網(wǎng)絡(luò)也可以做到,對(duì)吧?接下來(lái),你只需將它們的連接嵌入到一個(gè)人工神經(jīng)網(wǎng)絡(luò)中。這就是動(dòng)機(jī)。任何人類可以在幾分之一秒內(nèi)完成的事情,那么 10 層神經(jīng)網(wǎng)絡(luò)也可以做到。我們專注于 10 層神經(jīng)網(wǎng)絡(luò),因?yàn)檫@是當(dāng)年我們所知道的訓(xùn)練方式,如果你能以某種方式超越這個(gè)層數(shù),那么你可以做更多的事情。但在那時(shí),我們只能做 10 層,這就是為什么我們強(qiáng)調(diào)人類可以在幾分之一秒內(nèi)做的任何事情。當(dāng)年的另一張幻燈片說(shuō)明了我們的主要思想,你可能能夠識(shí)別兩件事情,或者至少一件事情,你可能能夠識(shí)別出這里正在發(fā)生自回歸的事情。它到底在說(shuō)什么?這張幻燈片到底說(shuō)了什么?這張幻燈片說(shuō),如果你有一個(gè)自回歸模型,并且它預(yù)測(cè)下一個(gè) token 足夠好,那么它實(shí)際上會(huì)抓取、捕捉并掌握接下來(lái)出現(xiàn)的任何序列的正確分布。這是一個(gè)相對(duì)較新的東西,它并不是第一個(gè)自回歸網(wǎng)絡(luò),但我認(rèn)為這是第一個(gè)自動(dòng)回歸神經(jīng)網(wǎng)絡(luò)。我們真正相信,如果你訓(xùn)練得很好,那么你就會(huì)得到你想要的任何東西。在我們的案例中,是現(xiàn)在看來(lái)很保守,當(dāng)時(shí)看來(lái)非常大膽的機(jī)器翻譯任務(wù)?,F(xiàn)在我將向你們展示一些你們中許多人可能從未見(jiàn)過(guò)的古老歷史,它被稱為 LSTM。對(duì)于那些不熟悉的人來(lái)說(shuō),LSTM 是可憐的深度學(xué)習(xí)研究者們?cè)?Transformer 之前所做的事情。它基本上是 ResNet,但旋轉(zhuǎn) 90 度。所以這是一個(gè) LSTM。LSTM 就像是一個(gè)稍微復(fù)雜的 ResNet。你可以看到 integrator,它現(xiàn)在被稱為 residual stream。但是你有一些乘在進(jìn)行中。這有點(diǎn)復(fù)雜,但這就是我們所做的。這是一個(gè)旋轉(zhuǎn) 90 度的 ResNet。那個(gè)老演講中我想強(qiáng)調(diào)的另一個(gè)重點(diǎn)是我們使用了并行化,但不僅僅是并行化。我們使用了流水線,每層神經(jīng)網(wǎng)絡(luò)分配一塊 GPU。正如我們現(xiàn)在所知,流水線策略并不明智,但我們當(dāng)時(shí)并不聰明。所以我們使用它,使用 8 塊 GPU 獲得了 3.5 倍的速度。最后的結(jié)論,那是最重要的一張幻燈片。它闡明了可能是 Scaling Laws 的開(kāi)始。如果你有一個(gè)非常大的數(shù)據(jù)集并且你訓(xùn)練了一個(gè)非常大的神經(jīng)網(wǎng)絡(luò),那么成功就是有保證的。人們可以爭(zhēng)辯說(shuō),如果一個(gè)人是慷慨的,這確實(shí)是正在發(fā)生的事情?,F(xiàn)在,我想提另一個(gè)想法,我認(rèn)為這個(gè)想法真正經(jīng)得起時(shí)間的考驗(yàn)。這是深度學(xué)習(xí)本身的核心思想。這就是聯(lián)結(jié)主義的思想。這個(gè)想法是,如果你相信人工神經(jīng)元有點(diǎn)像生物神經(jīng)元。如果你相信其中一個(gè)有點(diǎn)像另一個(gè),然后它讓你有信心相信超大規(guī)模神經(jīng)網(wǎng)絡(luò)。它們不需要真的是人類大腦規(guī)模,它們可能會(huì)小一點(diǎn),但你可以配置它們來(lái)完成我們所做的幾乎所有事情。但這與人類仍然存在差異,因?yàn)槿祟惔竽X會(huì)弄清楚如何重新配置自己,我們正在使用我們擁有的最好的學(xué)習(xí)算法,這需要與參數(shù)一樣多的數(shù)據(jù)點(diǎn)。人類在這方面做得更好。所有這些都導(dǎo)向了,我可以說(shuō)是,預(yù)訓(xùn)練時(shí)代。進(jìn)而就是我們所說(shuō)的 GPT-2 模型、GPT-3 模型,Scaling Laws。我想特別提到我的前合作者 Alec Radford,還有 Jared Kaplan 和 Dario Amodei,是他們的努力實(shí)現(xiàn)了這些工作。這就是預(yù)訓(xùn)練的時(shí)代,這就是所有進(jìn)步的驅(qū)動(dòng)力,我們今天看到的所有進(jìn)步,超大神經(jīng)網(wǎng)絡(luò),在巨大的數(shù)據(jù)集上訓(xùn)練的超大神經(jīng)網(wǎng)絡(luò)。但我們所知道的預(yù)訓(xùn)練路線無(wú)疑會(huì)結(jié)束。為什么會(huì)結(jié)束?因?yàn)橛?jì)算機(jī)通過(guò)更好的硬件、更好的算法和邏輯集群不斷增長(zhǎng),所有這些事情都在不斷增加你的計(jì)算能力,而數(shù)據(jù)沒(méi)有增長(zhǎng),因?yàn)槲覀冎挥幸粋€(gè)互聯(lián)網(wǎng)。你甚至可以說(shuō)數(shù)據(jù)是 AI 的化石燃料。它就像是以某種方式創(chuàng)建的,現(xiàn)在我們使用它,我們已經(jīng)實(shí)現(xiàn)了數(shù)據(jù)的最大化利用,不能再更好了。我們想辦法必須處理現(xiàn)在擁有的數(shù)據(jù)。我仍然會(huì)努力,這仍然讓我們走得很遠(yuǎn),但問(wèn)題在于,只有一個(gè)互聯(lián)網(wǎng)。所以在這里,我會(huì)大膽第推測(cè)一下接下來(lái)會(huì)發(fā)生什么。實(shí)際上,我都不需要推測(cè),因?yàn)樵S多人也在猜測(cè),我會(huì)提到他們的猜測(cè)。你可能聽(tīng)過(guò)「智能體 Agent」這個(gè)短語(yǔ),這很常見(jiàn),我相信最終會(huì)發(fā)生一些事情,人們覺(jué)得智能體是未來(lái)。更具體地說(shuō),但也有些模糊的合成數(shù)據(jù)。但合成數(shù)據(jù)是什么意思?弄清楚這一點(diǎn)是一個(gè)巨大的挑戰(zhàn),我相信不同的人在那里有各種有趣的進(jìn)展。還有推理時(shí)間計(jì)算,或者可能是最近(OpenAI 的)o1,o1 模型最生動(dòng)地展示了人們?cè)陬A(yù)訓(xùn)練后試圖弄清楚該做什么事情。這些都是非常好的事情。我想提到生物學(xué)中的另一個(gè)例子,我認(rèn)為這真的很酷。很多年前在這個(gè)會(huì)議上我也看到了一個(gè)演講,有人展示了這張圖,其中顯示了哺乳動(dòng)物身體大小和大腦大小之間的關(guān)系。在這種情況下,它是大規(guī)模的。那個(gè)演講,我清楚地記得,他們說(shuō),在生物學(xué)中,一切都很混亂,但在這里,你有一個(gè)罕見(jiàn)的例子,動(dòng)物身體的大小與它們的大腦之間存在非常緊密的關(guān)系。出于偶然,我對(duì)這張圖產(chǎn)生了好奇。所以我去谷歌以圖搜圖了一下。這張圖片里,列出了多種哺乳動(dòng)物,也有非靈長(zhǎng)類動(dòng)物,但大體一樣,還有原始人。據(jù)我所知,原始人在進(jìn)化過(guò)程中,像尼安德特人一樣是人類的近親。比如「能人」。有趣的是,他們的大腦與身體比例指數(shù)的斜率不同。很有意思。這意味著有一個(gè)案例,有一個(gè)生物學(xué)找出某種不同尺度的例子。顯然,有些事情是不同的。順便說(shuō)一下,我想強(qiáng)調(diào)一下這個(gè) x 軸是對(duì)數(shù)刻度。這是 100、1000、10000、100000,同樣以克為單位,1 克、10 克、100 克、一千克。所以事情有可能不同。我們正在做的事情,到目前為止我們一直在做擴(kuò)展的事,實(shí)際上我們發(fā)現(xiàn)如何擴(kuò)展成了第一要?jiǎng)?wù)。毫無(wú)疑問(wèn)在這個(gè)領(lǐng)域,每個(gè)在這里工作的人都會(huì)想出該做什么。但我想在這里談?wù)?。我想花幾分鐘的時(shí)間來(lái)對(duì)長(zhǎng)期進(jìn)行預(yù)測(cè),我們所有人都要面臨這樣的事,對(duì)不對(duì)?我們正在取得的所有進(jìn)展,是驚人的進(jìn)步。我的意思是,10 年前在這個(gè)領(lǐng)域工作的人,你們還記得一切都是多么無(wú)能為力。如果你是在過(guò)去兩年里加入了深度學(xué)習(xí)這個(gè)領(lǐng)域,你或許都無(wú)法感同身受。我想稍微談?wù)劇赋?jí)智能」,因?yàn)檫@顯然是這個(gè)領(lǐng)域的發(fā)展方向,是這個(gè)領(lǐng)域努力構(gòu)建的東西。盡管語(yǔ)言模型現(xiàn)在擁有令人難以置信的能力,但它們也有點(diǎn)不可靠。目前還不清楚如何調(diào)和這一點(diǎn),但最終,遲早會(huì)實(shí)現(xiàn)目標(biāo):這些系統(tǒng)將以真正的方式成為智能體?,F(xiàn)在,這些系統(tǒng)并不是強(qiáng)大的有意義的感知智能體,實(shí)際上它們剛剛開(kāi)始會(huì)推理。順便說(shuō)一句,一個(gè)系統(tǒng)推理的越多,它就變得越不可預(yù)測(cè)。我們已經(jīng)習(xí)慣所有深度學(xué)習(xí)都是非??深A(yù)測(cè)的。因?yàn)槿绻阋恢痹谘芯繌?fù)制人類直覺(jué),回到 0.1 秒的反應(yīng)時(shí)間,我們的大腦會(huì)進(jìn)行什么樣的處理?這就是直覺(jué),我們賦予了 AIS 一些這種直覺(jué)。但是推理,你看到了一些早期的跡象:推理是不可預(yù)測(cè)的。例如,國(guó)際象棋對(duì)于最好的人類棋手來(lái)說(shuō)都是不可預(yù)測(cè)的。因此,我們將不得不處理非常不可預(yù)測(cè)的 AI 系統(tǒng)。它們將從有限的數(shù)據(jù)中理解事物,并且不會(huì)感到困惑。所有這些都是非常大的限制。順便說(shuō)一句,我沒(méi)有說(shuō)怎么做,也沒(méi)有說(shuō)什么時(shí)候會(huì)以及什么時(shí)候所有這些事情都會(huì)與「自我意識(shí)」一起發(fā)生,因?yàn)闉槭裁础缸晕乙庾R(shí)」不能是有用的呢?我們自己也是我們自己世界模型的一部分。當(dāng)所有這些東西結(jié)合在一起時(shí),我們將擁有與今天存在的質(zhì)量和屬性完全不同的系統(tǒng)。當(dāng)然,它們將擁有令人難以置信和驚人的能力。但是像這樣的系統(tǒng)所帶來(lái)的問(wèn)題,我猜想它將非常與眾不同。我會(huì)說(shuō),預(yù)測(cè)未來(lái)肯定也是不可能的。真的,各種各樣的事情都是可能發(fā)生的。謝謝大家。Neurlps 大會(huì)上一陣掌聲過(guò)后,Ilya 回答了幾位提問(wèn)者簡(jiǎn)短的問(wèn)題。提問(wèn):在 2024 年,請(qǐng)問(wèn)您認(rèn)為是否還有其他與人類認(rèn)知相關(guān)的生物結(jié)構(gòu)值得以類似的方式進(jìn)行探索,或者還有您感興趣的領(lǐng)域嗎?Ilya:我會(huì)這樣回答這個(gè)問(wèn)題:如果你或者某個(gè)人對(duì)某個(gè)具體問(wèn)題有獨(dú)到的見(jiàn)解,比如 “嘿,我們明顯忽略了大腦在做某些事情,而我們并沒(méi)有做到”,并且這是可以實(shí)現(xiàn)的,那么他們就應(yīng)該去深入研究這個(gè)方向。我個(gè)人沒(méi)有這樣的見(jiàn)解。當(dāng)然,這也取決于你關(guān)注的研究抽象層級(jí)。很多人都渴望開(kāi)發(fā)受生物啟發(fā)的人工智能。從某種程度上來(lái)說(shuō),可以認(rèn)為由生物啟發(fā)的 AI 已經(jīng)取得了巨大的成功,畢竟整個(gè)深度學(xué)習(xí)的基礎(chǔ)就是由生物啟發(fā)的 AI。但另一方面,這種生物啟發(fā)其實(shí)非常、非常有限?;旧现皇?“讓我們使用神經(jīng)元”—— 這就是生物啟發(fā)的全部?jī)?nèi)涵。更詳細(xì)、更深層次的生物啟發(fā)卻很難實(shí)現(xiàn),但我不會(huì)排除這種可能性。我認(rèn)為,如果有人擁有特別的洞察力,能夠發(fā)現(xiàn)某些新的角度,這或許會(huì)非常有價(jià)值。提問(wèn):我想提問(wèn)一個(gè)關(guān)于自動(dòng)更正的問(wèn)題。您提到推理可能是未來(lái)模型的核心發(fā)展方向之一,也可能是一個(gè)差異化的特點(diǎn)。在一些海報(bào)展示環(huán)節(jié)中,我們看到當(dāng)前模型存在 “幻覺(jué)” 現(xiàn)象。我們目前分析模型是否出現(xiàn)幻覺(jué)的方法(如果我理解有誤請(qǐng)您糾正,您才是這方面的專家)主要是基于統(tǒng)計(jì)分析,例如通過(guò)某些標(biāo)準(zhǔn)差的偏離來(lái)判斷是否偏離均值。未來(lái),您是否認(rèn)為如果模型具備了推理能力,它能夠像 “自動(dòng)更正”(autocorrect)一樣自我糾正,從而成為未來(lái)模型的一個(gè)核心功能?這樣模型就不會(huì)出現(xiàn)那么多的幻覺(jué),因?yàn)樗茏R(shí)別出自己生成幻覺(jué)內(nèi)容的情況。這可能是一個(gè)比較復(fù)雜的問(wèn)題,但您認(rèn)為未來(lái)的模型是否能夠通過(guò)推理理解并發(fā)現(xiàn)幻覺(jué)的發(fā)生?Ilya:答案:是的。我認(rèn)為你描述的這種情況是非常有可能的。盡管我不確定,但我建議你去查證一下,這種情況可能已經(jīng)在一些早期的推理模型現(xiàn)了。但從長(zhǎng)期來(lái)看,為什么不可能呢?提問(wèn):我的意思是,這就像微軟 Word 里的自動(dòng)更正(autocorrect)功能一樣,它是一個(gè)核心功能。Ilya:是的,我只是覺(jué)得稱之為 “自動(dòng)更正” 其實(shí)有點(diǎn)低估了它的意義。當(dāng)你提到 “自動(dòng)更正” 時(shí),會(huì)讓人聯(lián)想到一些相對(duì)簡(jiǎn)單的功能,但這個(gè)概念遠(yuǎn)遠(yuǎn)超越了自動(dòng)更正。不過(guò),總的來(lái)說(shuō),答案是肯定的。提問(wèn):謝謝。接下來(lái)是第二位提問(wèn)者。提問(wèn):嗨,Ilya。我很喜歡那個(gè)神秘留白的結(jié)局。人工智能們是否會(huì)取代我們,還是說(shuō)它們比我們更優(yōu)越?它們是否需要權(quán)利?這是一個(gè)全新的物種。智人(Homo sapiens)孕育了這種智能,我覺(jué)得強(qiáng)化學(xué)習(xí)那邊的人可能認(rèn)為我們需要為這些存在爭(zhēng)取權(quán)利。我有一個(gè)與此無(wú)關(guān)的問(wèn)題:我們?nèi)绾蝿?chuàng)造正確的激勵(lì)機(jī)制,讓人類以一種方式來(lái)創(chuàng)造它們,使它們能享有與我們智人相同的?Ilya:我覺(jué)得這些問(wèn)題在某種意義上是人們應(yīng)該更多思考和反思的。但對(duì)于你提到的關(guān)于我們應(yīng)該創(chuàng)造什么樣的激勵(lì)機(jī)制的問(wèn)題,我覺(jué)得我無(wú)法自信地回答這樣的問(wèn)題。這聽(tīng)起來(lái)像是在討論創(chuàng)建某種自上而下的結(jié)構(gòu)或治理模式,但對(duì)此我確實(shí)不太確定。接下來(lái)是最后一位提問(wèn)者。提問(wèn):嗨,Ilya,謝謝你的精彩演講。我來(lái)自多倫多大學(xué)。感謝你所做的一切工作。我想請(qǐng)教一下,你認(rèn)為 LLMs 是否能夠在分布外進(jìn)行多跳推理的泛化?Ilya:好的,這個(gè)問(wèn)題假設(shè)答案是 “是” 或 “否”,但實(shí)際上不應(yīng)該這樣回答。因?yàn)槲覀冃枰扰宄悍植纪夥夯降资鞘裁匆馑??什么是分布?nèi)?什么是分布外?因?yàn)檫@是一次關(guān)于 “時(shí)間檢驗(yàn)” 的演講。我想說(shuō),在很久很久以前,人們?cè)谶€未使用深度學(xué)習(xí)時(shí),是用字符串匹配和 n-grams 來(lái)做機(jī)器翻譯的。當(dāng)時(shí)人們依靠的是統(tǒng)計(jì)短語(yǔ)表。你能想象嗎?這些方法的代碼復(fù)雜度達(dá)到了數(shù)萬(wàn)行,真的是難以想象的復(fù)雜。而在那個(gè)時(shí)候,泛化的定義是:翻譯結(jié)果是否和數(shù)據(jù)集中的短語(yǔ)表述字面上不完全相同?,F(xiàn)在我們可能會(huì)說(shuō):“我的模型在數(shù)學(xué)競(jìng)賽中取得了很高的分?jǐn)?shù),但也許這些數(shù)學(xué)題的某些想法曾經(jīng)在互聯(lián)網(wǎng)上的某個(gè)論壇中被討論過(guò),因此模型可能只是記住了這些內(nèi)容?!?好吧,你可以說(shuō)這可能是分布內(nèi)的,或者可能是記憶化的結(jié)果。但我認(rèn)為,我們對(duì)泛化的標(biāo)準(zhǔn)確實(shí)已經(jīng)大幅提高 —— 甚至可以說(shuō)是顯著地、不可想象地提高了。所以,我的答案是:在某種程度上,模型的泛化能力可能還遠(yuǎn)不及人類。我確實(shí)認(rèn)為人類在泛化方面要優(yōu)秀得多。但與此同時(shí),AI 模型也確實(shí)在某種程度上能夠進(jìn)行分布外泛化。我希望這個(gè)答案對(duì)你來(lái)說(shuō)算是有用的,盡管它聽(tīng)起來(lái)有些贅述了。提問(wèn):謝謝。參考內(nèi)容:https://www.theverge.com/2024/12/13/24320811/what-ilya-sutskever-sees-openai-model-data-training?THE END轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)投稿或?qū)で髨?bào)道:liyazhou@jiqizhixin.com

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 5555在线播放免费播放| 2019中文字幕免费电影在线播放| 亚洲中文字幕一二三四区| 亚洲人成人网站在线观看| 国产免费69成人精品视频| 成人毛片免费播放| 中字幕视频在线永久在线观看免费| 国内精品免费在线观看| 免费萌白酱国产一区二区三区| 久久精品乱子伦免费| 永久看日本大片免费35分钟| 亚洲精品乱码久久久久久久久久久久| 全部免费毛片在线| 亚洲精品少妇30p| 免费看一区二区三区四区| 国产精品亚洲w码日韩中文| 亚洲精品无码国产| 日韩免费观看一区| 亚洲精品无码久久毛片波多野吉衣| 亚洲欧洲国产综合AV无码久久| 亚洲国产精品无码久久九九大片| 一级毛片a女人刺激视频免费| 波多野结衣中文字幕免费视频| 九月婷婷亚洲综合在线| 久久精品国产亚洲77777| 亚洲va成无码人在线观看| 亚洲一区欧洲一区| 在线看片免费人成视频福利| 久久精品国产亚洲av麻豆小说| 免费观看的毛片手机视频| 亚洲色无码一区二区三区| 亚洲精品久久无码av片俺去也| 成人免费无码大片a毛片软件| 在线观看亚洲免费视频| 成人黄色免费网站| 婷婷亚洲综合一区二区| 免费观看美女用震蛋喷水的视频| 亚洲午夜国产精品无码| 99在线视频免费观看视频| 日日摸夜夜添夜夜免费视频| 日韩免费福利视频|