国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Ilya錯了,預訓練沒結束!LeCun等反擊,「小模型時代」讓奧特曼預言成真

AIGC動態10個月前發布 新智元
514 0 0

新智元報道編輯:編輯部 HZj【新智元導讀】Ilya「預訓練結束了」一出,圈內嘩然。谷歌大佬Logan Klipatrick和LeCun站出來反對說:預訓練還沒結束!Scaling Law真的崩了嗎?Epoch AI發布報告稱,我們已經進入「小模型」周期,但下一代依然會更大。最近,Ilya在NeurIPS 2024中宣布:預訓練結束了!瞬間一石激起千層浪。在他看來,數據如同化石燃料般難以再生,因此訓練模型需要的海量數據即將枯竭。作為前OpenAI首席科學家,Ilya的這番話,有可能影響之后數十年的AI發展方向。不過,預訓練真的結束了嗎?最近,幾位圈內大佬,就公開站出來質疑和反對Ilya了。谷歌大佬Logan Kilpatrick是這樣內涵Ilya的:認為預訓練結束,恐怕是因為你缺乏想象力。前Meta具身智能團隊的高級總監Dhruv Batra也站出來共同表示:Ilya錯了!在他看來,人類的數據還沒有用完。我們只是用完了人類書寫的文本而已,但我們擁有的視頻數量,依然遠超我們的處理能力,目前只是尚未解決視覺領域的預訓練問題罷了。的確,要知道,網絡上的文本公共數據,畢竟只是冰山一角而已。我們除了文本,還能對音頻、視頻、圖像進行預訓練,甚至可以把視覺、嗅覺、觸覺、平衡和傳感器這些人類進化出來的功能賦予機器。而如果模型真的可以學習的話,那數據或許確實是無所不在。 左右滑動查看有人則充分放分想象:如果預訓練能和生物相連,那它的確永遠不會結束。Scaling Law和預訓練到底有沒有撞墻?種種表明,我們已經站在了一個發展路線的分水嶺。Ilya、LeCun甚至奧特曼,都已經感覺到:目前的發展路線不能再延續下去了,我們亟需探索新的出路。早期,Ilya曾是暴力Scaling的早期倡導者之一,認為通過增加數據和算力來「scale up」,能顯著改善模型性能。但現在,Ilya已經承認自己曾經的想法錯了,并透露SSI正在研究一種全新的替代方法,來擴展預訓練。相較之下,外媒SemiAnalysis則在一篇關于o1的深度報道中指出——scale的維度遠不止預訓練,Scaling Law仍將繼續下去。最近,Epoch AI研究員的一篇長文,更是直觀地展示了這個「矛盾」的現象。從2017年Transformer架構誕生到GPT-4發布,SOTA模型的規模一直在變大,但增幅在變小。從GPT-1到GPT-3,用了2年時間,模型參數量從1.17億增加到1750億,增加了1000倍從GPT-3到GPT-4,用了2年9個月,模型參數量從1750億增加到1.8萬億,增加了10倍而到了2023年,這一趨勢直接發生了逆轉。據估計,當前SOTA模型的參數可能要比GPT-4的1.8萬億小一個數量級!GPT-4o大約為2000億參數Claude 3.5 Sonnet約為4000億參數但有趣的是,下一代模型的規模,可能又會重新超過GPT-4。當今SOTA模型最大只有約4000億參數盡管許多實驗室沒有公開模型架構,Epoch AI的研究員依然從蛛絲馬跡中發現了線索。首先是開源模型的證據。根據Artificial Analysis的模型質量指數,當前最佳的開源模型是Mistral Large 2和Llama 3.3,分別擁有1230億和700億參數。這些稠密模型,架構與GPT-3相似,但參數更少。它們總體的基準表現超過了GPT-4和Claude 3 Opus,且由于參數更少,它們的推理成本和速度也更優。對于閉源模型,盡管我們通常無法得知參數詳情,但可以根據推理速度和收費推測它們的大小。僅考慮短上下文請求,OpenAI提供的2024年11月版本GPT-4o,每個用戶每秒100-150個輸出token,收費每百萬輸出token 10美元;而GPT-4 Turbo每秒最多大約55個輸出token,費用是每百萬輸出token 30美元。顯然,GPT-4o比GPT-4 Turbo更便宜且更快,因此它的參數可能比GPT-4小得多。另外,我們還可以使用推理經濟學的理論模型,來預測GPT-4在H200上進行推理的成本。假設使用H200進行推理的機會成本為每小時3美元,下面的圖顯示了不同價格點下,GPT-4及其假設縮小版的生成速度??傮w來說,為了讓模型每秒生成100個以上的token并且能夠流暢服務,模型需要比GPT-4小得多。根據上圖,假設OpenAI的價格加成大約是GPU成本的八分之一,GPT-4o的參數量可能在2000億左右,雖然這個估計可能有2倍的誤差。有證據表明,Anthropic的Claude 3.5 Sonnet可能比GPT-4o更大。Sonnet每秒生成約60個token,每百萬輸出token收費15美元。這速度在優化設置下接近原版GPT-4的收支平衡點。不過,考慮到Anthropic API可能加價不少,Sonnet參數規模仍顯著小于GPT-4,估計在4000億左右??傮w來看,當前前沿模型的參數大多在4000億左右,像Llama 3.1 405B和Claude 3.5 Sonnet可能是最大的。雖然對于閉源模型的參數估計有很大的不確定性,但我們仍然可以推測,從GPT-4和Claude 3 Opus到如今最強的模型,規模縮小的幅度可能接近一個數量級。為什么會這樣?針對這一現象,Epoch AI認為有四個主要原因:1. AI需求爆發,模型不得不瘦身自ChatGPT和GPT-4發布以來,AI產品需求激增,服務商面臨的推理請求大大超出預期。此前,從2020年到2023年3月,模型訓練的目標是最小化訓練計算量,即在固定的能力水平下,花費盡可能少的計算資源完成訓練。Kaplan和Chinchilla的Scaling Law建議,隨著訓練計算量的增加,模型規模也應擴大。隨著推理成本占據支出的大頭,傳統法則的適用性受到了挑戰。相比scaling模型規模,在更多訓練數據(token)上訓練較小的模型反而更劃算,因為較小的模型在推理階段的計算需求較低,能夠以更低的成本服務用戶。比如,從Llama 2 70B到Llama 3 70B,雖然模型參數規模沒有顯著增加,但模型的性能卻顯著提升。這是因為通過過度訓練(在更多數據上訓練較小的模型),可以讓模型在保持小規模的同時,表現得更強大。2.蒸餾,讓小模型更能打實驗室還采用了「蒸餾」方法,從而讓更小的模型表現得更強大。蒸餾指的是讓小模型模仿已經訓練好的大模型的性能。蒸餾方法有很多種,其中一種簡單的方法是使用大模型生成高質量的合成數據集來訓練小模型,而更復雜的方法則需要訪問大模型的內部信息(如隱藏狀態和logprobs)。Epoch AI認為,GPT-4o和Claude 3.5 Sonnet很可能是從更大的模型蒸餾得到的。3. Scaling Law的轉變Kaplan Scaling Law(2020)建議,模型的參數量與訓練用的token數量(即數據量)應保持較高的比例。簡單來說,當你增加訓練數據時,應該相應增加模型的規模(參數量)而Chinchilla Scaling Law(2022)則偏向于更多訓練數據和更少的參數。模型不必越來越大,關鍵在于訓練數據的規模和多樣性。這個轉變導致了訓練方式的改變:模型變得更小,但訓練數據更多。從Kaplan到Chinchilla的轉變,并非因為推理需求的增加,而是我們對如何有效scaling預訓練的理解發生了變化。4. 推理更快,模型更小隨著推理方法的改進,模型生成token的效率和低延遲變得更加重要。過去,判斷一個模型「足夠快」的標準是看它的生成速度是否接近人類的閱讀速度。然而,當模型在生成每個輸出token時需要先推理出多個token時(比如每個輸出token對應10個推理token),提升生成效率就變得更關鍵。這推動了實驗室,像OpenAI,專注于優化推理過程,使得模型在處理復雜推理任務時能夠更高效運行,也因此促使它們縮小模型的規模。5. 用AI喂AI,成本更低越來越多的實驗室開始采用合成數據作為訓練數據來源,這也是促使模型變小的原因之一。合成數據為訓練計算scaling提供了一種新的途徑,超越了傳統的增加模型參數量和訓練數據集大小的方法(即,超越預訓練計算scaling)。我們可以生成將來用于訓練的token,而不是從互聯網上抓取它們,就像AlphaGo通過自我對弈生成訓練數據一樣。這樣,我們可以保持Chinchilla Scaling Law下計算最優的token與參數比例,但通過生成數據時為每個token投入更多計算,從而增加訓練計算量而不增加模型大小。奧特曼:參數規模競賽即將終結?2023年4月,OpenAI發布了當時最強的,同時也是第一款未公開參量的模型GPT-4。之后不久,CEO奧特曼曾預言了模型參數競賽的終結:圍繞模型參數量的競賽,就像歷史上對更高處理器主頻的追求,是一個死胡同。那么,前沿模型的規模會不會越變越小呢?簡短的答案是——可能不會。但也很難說是否應該期待它們在短期內變得比GPT-4更大。從Kaplan到Chinchilla的轉變是一次性的,因此我們沒有理由期待它繼續讓模型變小。GPT-4發布后的推理需求增長也可能快于未來推理支出的增長速度。且合成數據和scaling計算并非每個實驗室都在采納——即使有高質量的訓練數據,對于非常小的模型而言,能夠取得的成就可能非常有限。此外,硬件的進步可能會促使更大的模型變得更優,因為在相同預算下,大模型通常表現更好。較小的模型在推理時可能表現更差,尤其在長上下文和復雜任務上。未來的模型(如GPT-5或Claude 4)可能會恢復或稍微超過GPT-4的規模,之后是否繼續縮小規模難以預料。理論上,當前硬件足以支持比GPT-4大50倍、約100萬億參數的模型,可能以每百萬輸出token 3000美元、每秒10-20個token的速度提供服務。但正如Karpathy所說,相比于如今這種只能根據prompt去解決博士級別問題的AI,一個能夠真正作為「實習生」入職的AI更為實用。參考資料:https://epoch.ai/gradient-updates/frontier-language-models-have-become-much-smallerhttps://x.com/OfficialLoganK/status/1868002617311596552https://x.com/DhruvBatraDB/status/1868009853324865762https://x.com/karpathy/status/1868061331355840704

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        日韩一二三区视频| 久久福利视频一区二区| 日韩电影网1区2区| 欧美日韩国产成人在线91| 亚洲永久精品大片| 欧美丰满少妇xxxbbb| 蜜臀av一区二区| 久久蜜臀精品av| aaa国产一区| 一区二区欧美国产| 91精品黄色片免费大全| 国产另类ts人妖一区二区| 国产精品初高中害羞小美女文| 成人国产精品免费观看视频| 亚洲美女偷拍久久| 日韩欧美国产一区二区在线播放 | 国产91综合网| 樱花草国产18久久久久| 欧美一区二区三区在| 国产成人亚洲综合色影视| 中文字幕在线不卡视频| 91精品国产91久久久久久一区二区 | 欧美日韩视频在线第一区| 蜜桃一区二区三区四区| 中文字幕精品综合| 欧美在线|欧美| 国产传媒日韩欧美成人| 亚洲第一精品在线| 国产精品午夜春色av| 在线成人免费观看| 成人中文字幕在线| 老司机精品视频在线| 亚洲精品菠萝久久久久久久| 精品国产伦一区二区三区观看方式| 99在线视频精品| 紧缚奴在线一区二区三区| 亚洲一区视频在线| 国产精品高潮久久久久无| 久久日韩精品一区二区五区| 欧美日韩视频在线一区二区| 精品视频在线视频| 白白色亚洲国产精品| 国内精品伊人久久久久av一坑 | 在线视频观看一区| 国产69精品久久久久毛片| 蜜桃av一区二区在线观看| 亚洲国产精品自拍| 一区二区三区不卡在线观看| 国产精品青草久久| 日本一区二区久久| 国产校园另类小说区| 久久综合成人精品亚洲另类欧美 | 欧美伊人精品成人久久综合97| 国产激情偷乱视频一区二区三区| 日本aⅴ免费视频一区二区三区| 亚洲女同女同女同女同女同69| 国产亚洲精品久| 久久中文字幕电影| 久久先锋影音av鲁色资源网| 精品区一区二区| 久久丝袜美腿综合| 久久久久综合网| 久久精品一区二区三区不卡| 精品国产一区二区国模嫣然| 精品久久久久久无| 国产日产欧美一区二区视频| 亚洲精品一区二区三区蜜桃下载| 精品日韩成人av| 亚洲国产精品成人综合色在线婷婷 | 欧美无人高清视频在线观看| 在线一区二区三区四区五区| 欧美视频精品在线观看| 欧美一二区视频| 精品成人佐山爱一区二区| 久久久久久免费| 国产欧美精品国产国产专区| 国产精品你懂的在线欣赏| 国产精品成人一区二区三区夜夜夜| 国产精品电影一区二区| 亚洲h精品动漫在线观看| 毛片av一区二区| 成人综合激情网| 欧美日韩免费观看一区三区| 精品国内片67194| 中文字幕亚洲一区二区av在线 | 久久91精品国产91久久小草| 国产乱子伦一区二区三区国色天香| 高清久久久久久| 欧亚洲嫩模精品一区三区| 91精品福利在线一区二区三区| 久久久激情视频| 亚洲制服丝袜av| 国产一区91精品张津瑜| 在线免费观看日本欧美| 日韩一区二区在线播放| 国产精品成人一区二区三区夜夜夜| 亚洲国产裸拍裸体视频在线观看乱了| 蜜臀av性久久久久蜜臀aⅴ流畅| 国产精一品亚洲二区在线视频| 一本大道久久a久久综合| 欧美成人欧美edvon| 日韩毛片一二三区| 国模娜娜一区二区三区| 欧美日韩国产在线播放网站| 中文字幕国产一区二区| 免费在线观看一区二区三区| 成人av第一页| 久久综合99re88久久爱| 亚洲一区免费观看| 欧美三级午夜理伦三级中视频| 精品国产乱子伦一区| 亚洲bdsm女犯bdsm网站| 风间由美一区二区三区在线观看| 欧美亚一区二区| 亚洲乱码一区二区三区在线观看| 激情综合网最新| 7777精品伊人久久久大香线蕉超级流畅 | 国产午夜亚洲精品理论片色戒 | 日韩电影一区二区三区四区| 99精品视频在线观看| 久久你懂得1024| 日本欧美肥老太交大片| 91福利在线观看| 成人欧美一区二区三区黑人麻豆 | 99热精品一区二区| 国产日韩欧美精品电影三级在线 | 96av麻豆蜜桃一区二区| 精品少妇一区二区三区在线视频 | 毛片av中文字幕一区二区| 91国偷自产一区二区使用方法| 欧美国产日韩精品免费观看| 国产成人av一区二区三区在线 | 一区二区三区美女| 91视频一区二区| 国产精品久久精品日日| 成人免费高清在线| 国产精品久久久久aaaa樱花| 99久久精品免费精品国产| 亚洲国产精品v| 99精品国产一区二区三区不卡| 国产精品久久久久9999吃药| 99国产麻豆精品| 一区二区三区中文字幕精品精品| 91天堂素人约啪| 亚洲综合久久久| 6080yy午夜一二三区久久| 美腿丝袜在线亚洲一区| 精品成人一区二区三区四区| 激情五月婷婷综合网| 国产精品麻豆一区二区| 91麻豆.com| 亚洲va国产天堂va久久en| 欧美日本精品一区二区三区| 日韩国产在线一| 久久精品亚洲国产奇米99| av电影天堂一区二区在线| 香蕉av福利精品导航| 欧美成人video| 狠狠色丁香婷婷综合| 4438x成人网最大色成网站| 麻豆freexxxx性91精品| 久久婷婷国产综合国色天香| 成人午夜激情片| 亚洲高清在线精品| 久久蜜桃香蕉精品一区二区三区| av一区二区不卡| 日本不卡视频一二三区| 国产精品无圣光一区二区| 欧美日韩成人在线| 国产99久久久国产精品潘金网站| 亚洲人成精品久久久久久| 日韩一级大片在线观看| 99精品黄色片免费大全| 日产国产高清一区二区三区| 国产午夜亚洲精品理论片色戒| 欧美视频中文字幕| 成人高清在线视频| 捆绑调教美女网站视频一区| 国产精品初高中害羞小美女文| 日韩午夜中文字幕| 日本韩国精品在线| 极品美女销魂一区二区三区| 一区二区成人在线视频| 久久精品亚洲麻豆av一区二区| 在线观看av不卡| 成年人网站91| 韩国精品免费视频| 偷拍自拍另类欧美| 亚洲欧美韩国综合色| 久久午夜色播影院免费高清| 欧美日韩在线播| 91丝袜国产在线播放| 国产一区二区在线视频| 奇米影视7777精品一区二区| 亚洲视频在线观看三级| 国产日韩精品一区二区三区在线| 日韩精品中文字幕一区二区三区| 欧美日韩亚洲另类| 色伊人久久综合中文字幕| 成人精品视频一区|