Ilya承認(rèn)Scaling Law到頭了，Meta和谷歌尋找替代o1的方法

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布夕小瑤科技說(shuō)

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：Ilya承認(rèn)Scaling Law到頭了，Meta和谷歌尋找替代o1的方法
關(guān)鍵字：模型,規(guī)模,測(cè)試,數(shù)據(jù),團(tuán)隊(duì)
文章來(lái)源：夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

夕小瑤科技說(shuō) 原創(chuàng)作者 | 小鹿近期，全球科技界的目光都集中在OpenAI即將推出的下一代模型上，究竟會(huì)是o2還是GPT-5？
o2代表了全新的訓(xùn)練范式，而GPT-5則代表了繼續(xù)Scaling Law的路線。
實(shí)際上，這個(gè)問(wèn)題已經(jīng)在11月份的時(shí)候，有Reddit網(wǎng)友向Altman提出過(guò)：
Altman最新談到OpenAI的動(dòng)態(tài)時(shí)，與OpenAI尋求新路徑的努力是相呼應(yīng)的–下一代技術(shù)不會(huì)是GPT的簡(jiǎn)單迭代。
為什么不再是GPT-5了？首先，GPT系列模型，即生成式預(yù)訓(xùn)練Transformer模型，其核心特點(diǎn)是依靠數(shù)據(jù)驅(qū)動(dòng)的Scaling Law來(lái)推動(dòng)性能的提升。
論文《Scaling Laws for Neural Language Models》提出語(yǔ)言建模性能隨著模型大小、數(shù)據(jù)集大小和用于訓(xùn)練的計(jì)算量的增加而平穩(wěn)提升。為了獲得最佳性能，這三個(gè)因素必須同時(shí)擴(kuò)大。當(dāng)不受其他兩個(gè)因素的限制時(shí)，經(jīng)驗(yàn)性能與每個(gè)單獨(dú)因素之間具有冪律關(guān)系。然而，隨著技術(shù)的不斷進(jìn)步，這種依賴于數(shù)據(jù)量和模型規(guī)模增長(zhǎng)的模式開(kāi)始顯現(xiàn)出其局限性，優(yōu)化和改進(jìn)的速度逐漸放緩。
OpenAI的資深前合伙人，同時(shí)也是早期推動(dòng)暴力

原文鏈接：Ilya承認(rèn)Scaling Law到頭了，Meta和谷歌尋找替代o1的方法