Chinchilla之死:只要訓(xùn)練足夠長時間,小模型也能超過大模型
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Chinchilla之死:只要訓(xùn)練足夠長時間,小模型也能超過大模型
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7870字
內(nèi)容摘要:選自espadrine機(jī)器之心編譯2022 年 3 月,DeepMind 一篇論文《Training Compute-Optimal Large Language Models》通過構(gòu)建的 Chinchilla 模型得出了一個結(jié)論:大模型存在訓(xùn)練不足的缺陷,模型大小和訓(xùn)練 token 的數(shù)量應(yīng)該以相等的比例擴(kuò)展。也就是說模型越大,所使用的訓(xùn)練 token 也應(yīng)該越多。但事實可能并非如此,近日,博主…
原文鏈接:點此閱讀原文:Chinchilla之死:只要訓(xùn)練足夠長時間,小模型也能超過大模型
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...