大模型訓(xùn)練成本降一半！廈大和vivo聯(lián)合推出預(yù)訓(xùn)練新策略，給LLM降本增效

AIGC動態(tài)歡迎閱讀

原標(biāo)題：大模型訓(xùn)練成本降一半！廈大和vivo聯(lián)合推出預(yù)訓(xùn)練新策略，給LLM降本增效
關(guān)鍵字：范式,性能,版本,成本,路徑
文章來源：夕小瑤科技說
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 王志豪魚與熊掌可以兼得，廈門大學(xué)和vivo AI lab聯(lián)合提出預(yù)訓(xùn)練學(xué)習(xí)率調(diào)整新策略，降低訓(xùn)練42%成本的同時，還能保持大模型效果，該成果已發(fā)表于AI領(lǐng)域的頂級會議EMNLP2024。
近年來，大語言模型（Large Language Models, LLMs）的研究取得了重大進(jìn)展，并對各個領(lǐng)域產(chǎn)生了深遠(yuǎn)影響。然而，LLMs的卓越性能來源于海量數(shù)據(jù)的大規(guī)模訓(xùn)練，這導(dǎo)致LLMs的訓(xùn)練成本明顯高于傳統(tǒng)模型。此外在實(shí)際應(yīng)用中，新數(shù)據(jù)的不斷涌現(xiàn)使LLMs需要不斷進(jìn)行版本更新來保持性能優(yōu)勢，這加劇了LLMs的訓(xùn)練成本。為了探索如何在降低訓(xùn)練成本的同時確保不同版本LLMs的性能，來自廈門大學(xué)和vivo的研究員共同展開研究，在EMNLP2024聯(lián)合提出了一種能更好地平衡版本更新時LLMs的性能和成本的訓(xùn)練范式，并應(yīng)用于vivo的藍(lán)心大模型訓(xùn)練。
論文標(biāo)題：A Learning Rate Path Switching Training Paradigm for Version Updates of Large Language Models
論文鏈接：https://ar

原文鏈接：大模型訓(xùn)練成本降一半！廈大和vivo聯(lián)合推出預(yù)訓(xùn)練新策略，給LLM降本增效