大模型訓(xùn)練成本降一半!廈大和vivo聯(lián)合推出預(yù)訓(xùn)練新策略,給LLM降本增效
AIGC動態(tài)歡迎閱讀
原標(biāo)題:大模型訓(xùn)練成本降一半!廈大和vivo聯(lián)合推出預(yù)訓(xùn)練新策略,給LLM降本增效
關(guān)鍵字:范式,性能,版本,成本,路徑
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 王志豪魚與熊掌可以兼得,廈門大學(xué)和vivo AI lab聯(lián)合提出預(yù)訓(xùn)練學(xué)習(xí)率調(diào)整新策略,降低訓(xùn)練42%成本的同時,還能保持大模型效果,該成果已發(fā)表于AI領(lǐng)域的頂級會議EMNLP2024。
近年來,大語言模型(Large Language Models, LLMs)的研究取得了重大進(jìn)展,并對各個領(lǐng)域產(chǎn)生了深遠(yuǎn)影響。然而,LLMs的卓越性能來源于海量數(shù)據(jù)的大規(guī)模訓(xùn)練,這導(dǎo)致LLMs的訓(xùn)練成本明顯高于傳統(tǒng)模型。此外在實(shí)際應(yīng)用中,新數(shù)據(jù)的不斷涌現(xiàn)使LLMs需要不斷進(jìn)行版本更新來保持性能優(yōu)勢,這加劇了LLMs的訓(xùn)練成本。為了探索如何在降低訓(xùn)練成本的同時確保不同版本LLMs的性能,來自廈門大學(xué)和vivo的研究員共同展開研究,在EMNLP2024聯(lián)合提出了一種能更好地平衡版本更新時LLMs的性能和成本的訓(xùn)練范式,并應(yīng)用于vivo的藍(lán)心大模型訓(xùn)練。
論文標(biāo)題:A Learning Rate Path Switching Training Paradigm for Version Updates of Large Language Models
論文鏈接:https://ar
原文鏈接:大模型訓(xùn)練成本降一半!廈大和vivo聯(lián)合推出預(yù)訓(xùn)練新策略,給LLM降本增效
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介: