Ilya承認(rèn)Scaling Law到頭了,Meta和谷歌尋找替代o1的方法
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Ilya承認(rèn)Scaling Law到頭了,Meta和谷歌尋找替代o1的方法
關(guān)鍵字:模型,規(guī)模,測(cè)試,數(shù)據(jù),團(tuán)隊(duì)
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 小鹿近期,全球科技界的目光都集中在OpenAI即將推出的下一代模型上,究竟會(huì)是o2還是GPT-5?
o2代表了全新的訓(xùn)練范式,而GPT-5則代表了繼續(xù)Scaling Law的路線。
實(shí)際上,這個(gè)問(wèn)題已經(jīng)在11月份的時(shí)候,有Reddit網(wǎng)友向Altman提出過(guò):
Altman最新談到OpenAI的動(dòng)態(tài)時(shí),與OpenAI尋求新路徑的努力是相呼應(yīng)的–下一代技術(shù)不會(huì)是GPT的簡(jiǎn)單迭代。
為什么不再是GPT-5了?首先,GPT系列模型,即生成式預(yù)訓(xùn)練Transformer模型,其核心特點(diǎn)是依靠數(shù)據(jù)驅(qū)動(dòng)的Scaling Law來(lái)推動(dòng)性能的提升。
論文《Scaling Laws for Neural Language Models》提出語(yǔ)言建模性能隨著模型大小、數(shù)據(jù)集大小和用于訓(xùn)練的計(jì)算量的增加而平穩(wěn)提升。為了獲得最佳性能,這三個(gè)因素必須同時(shí)擴(kuò)大。當(dāng)不受其他兩個(gè)因素的限制時(shí),經(jīng)驗(yàn)性能與每個(gè)單獨(dú)因素之間具有冪律關(guān)系。然而,隨著技術(shù)的不斷進(jìn)步,這種依賴于數(shù)據(jù)量和模型規(guī)模增長(zhǎng)的模式開始顯現(xiàn)出其局限性,優(yōu)化和改進(jìn)的速度逐漸放緩。
OpenAI的資深前合伙人,同時(shí)也是早期推動(dòng)暴力
原文鏈接:Ilya承認(rèn)Scaling Law到頭了,Meta和谷歌尋找替代o1的方法
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:
作者簡(jiǎn)介: