關(guān)于scaling law 的正確認(rèn)識
AIGC動態(tài)歡迎閱讀
原標(biāo)題:關(guān)于scaling law 的正確認(rèn)識
關(guān)鍵字:模型,參數(shù),數(shù)據(jù),深度,論文
文章來源:算法邦
內(nèi)容字?jǐn)?shù):4388字
內(nèi)容摘要:
智猩猩和智東西發(fā)起主辦的2024中國生成式AI大會將于4月18-19日在北京舉辦。主會場將進(jìn)行開幕式、大模型專場、AI Infra專場和AIGC應(yīng)用專場;分會場將進(jìn)行具身智能技術(shù)研討會、AI智能體技術(shù)研討會和中國智算中心創(chuàng)新論壇。掃名,也可咨詢。最近scaling law 成了最大的熱詞。一般的理解就是,想干大模型,清洗干凈數(shù)據(jù),然后把數(shù)據(jù)tokens量堆上來,然后搭建一個海量H100的集群,干就完了。訓(xùn)練模型不需要啥技巧,模型結(jié)構(gòu)也沒啥好設(shè)計(jì)的,對算法精度影響很小。
事實(shí)上,原論文里面講的邏輯不是這樣的。
論文Scaling Laws for Neural Language Models鏈接在這里:
https://arxiv.org/pdf/2001.08361.pdf
openai于20年1月23放出的論文。里面的核心輸出是這樣的:
對于基于transformer的語言模型,假設(shè)模型的參數(shù)量為N,數(shù)據(jù)集tokens個數(shù)為D(token數(shù)),那么,模型的計(jì)算量C約= 6N*D 。模型的計(jì)算量C一定后,模型的性能即精度就基本確定。它的決策變量只有N和D,跟模型的具體結(jié)構(gòu)諸如層數(shù)、
原文鏈接:關(guān)于scaling law 的正確認(rèn)識
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接AI新青年,講解研究成果,分享系統(tǒng)思考。