70倍極致壓縮!大模型的檢查點(diǎn)再多也不怕
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:70倍極致壓縮!大模型的檢查點(diǎn)再多也不怕
關(guān)鍵字:華為,檢查點(diǎn),權(quán)重,動(dòng)量,模型
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專(zhuān)欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com該論文的作者均來(lái)自于華為諾亞實(shí)驗(yàn)室,第一作者為李文碩,通訊作者為王云鶴和陳醒濠。相關(guān)團(tuán)隊(duì)團(tuán)隊(duì)近年來(lái)在ICML、CVPR、NeurIPS、ICCV、ECCV等頂會(huì)上有多項(xiàng)代表性工作發(fā)表,在高效大語(yǔ)言模型、視覺(jué)模型等領(lǐng)域都有豐富的成果產(chǎn)出,和知名高校和科研機(jī)構(gòu)合作廣泛。
大模型作為當(dāng)下 AI 工業(yè)界和學(xué)術(shù)界當(dāng)之無(wú)愧的「流量之王」,吸引了大批學(xué)者和企業(yè)投入資源去研究與訓(xùn)練。隨著規(guī)模越做越大,系統(tǒng)和工程問(wèn)題已經(jīng)成了大模型訓(xùn)練中繞不開(kāi)的難題。例如在 Llama3.1 54 天的訓(xùn)練里,系統(tǒng)會(huì)崩潰 466 次,平均 2.78 小時(shí)一次!那么,頻繁存儲(chǔ)檢查點(diǎn)就顯得十分必要。但存儲(chǔ)檢查點(diǎn)本身也是一個(gè)大工程。Meta 做了很多努力來(lái)加速存儲(chǔ)檢查點(diǎn)時(shí)間和增加存儲(chǔ)頻率,來(lái)對(duì)抗頻繁出
原文鏈接:70倍極致壓縮!大模型的檢查點(diǎn)再多也不怕
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: