AIGC動態歡迎閱讀
原標題:如何解決大模型增量預訓練中的災難性遺忘?
關鍵字:模型,增量,數據,領域,方法
文章來源:算法邦
內容字數:5208字
內容摘要:
目前不少開源模型在通用領域具有不錯的效果,但由于缺乏領域數據,往往在一些垂直領域中表現不理想,這時就需要增量預訓練和微調等方法來提高模型的領域能力。
但在領域數據增量預訓練或微調時,很容易出現災難性遺忘現象,也就是學會了垂直領域知識,但忘記了通用領域知識。
今天給大家帶來一篇增量預訓練方法-Llama-Pro,對LLMs進行Transformer塊擴展后,增量預訓練過程中僅對新增塊進行訓練,有效地進行模型知識注入,并且極大程度地避免災難性遺忘。
LLaMA Pro: Progressive LLaMA with Block Expansion
LLaMAPro:ProgressiveLLaMAwithBlockExpansion
Paper:https://arxiv.org/abs/2401.02415
Github:https://github.com/TencentARC/LLaMA-Pro
01塊擴展方法塊擴展,顧名思義,就是在原始模型中每個Transformer塊或者某幾個Transformer塊后增加一個Transformer塊,但為了保持擴展后的模型輸出保持不變,需要增加
原文鏈接:如何解決大模型增量預訓練中的災難性遺忘?
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關注大模型、生成式AI、計算機視覺三大領域的研究與開發,提供技術文章、講座、在線研討會。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...