Llama2-7B升級(jí)為Pro版本！騰訊提出「塊擴(kuò)展」訓(xùn)練法，效果全面提升

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布夕小瑤科技說(shuō)

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：Llama2-7B升級(jí)為Pro版本！騰訊提出「塊擴(kuò)展」訓(xùn)練法，效果全面提升
關(guān)鍵字：模型,騰訊,方法,領(lǐng)域,初始化
文章來(lái)源：夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù)：4491字

內(nèi)容摘要：

夕小瑤科技說(shuō) 原創(chuàng)作者 | 付奶茶、python大語(yǔ)言模型在編程、數(shù)學(xué)、生物醫(yī)學(xué)和金融等專(zhuān)業(yè)領(lǐng)域性能不佳，通過(guò)特定領(lǐng)域后訓(xùn)練可在降低資源消耗的同時(shí)提升性能。但是，后訓(xùn)練可能導(dǎo)致災(zāi)難性遺忘，從而削弱模型原有的通用處理能力，限制了其在多元任務(wù)上的應(yīng)用。
騰訊最近發(fā)表的一篇研究論文介紹了一種通過(guò)復(fù)制Transformer塊并用特定領(lǐng)域的數(shù)據(jù)對(duì)新塊進(jìn)行微調(diào)來(lái)擴(kuò)展原始LLM的方法，生成LLaMA Pro-8.3B，初始化自LLaMA2-7B。這種方法使得模型在保持其通用能力的同時(shí)，能夠有效融合新的知識(shí)。
論文標(biāo)題:
LLAMA PRO: Progressive LLaMA with Block Expansion
論文鏈接:
https://arxiv.org/pdf/2401.02415.pdf
github代碼:
https://github.com/TencentARC/LLaMA-Pro
塊擴(kuò)展方法本文提出了一種稱(chēng)為“塊擴(kuò)展”的簡(jiǎn)潔而有效的后訓(xùn)練方法。該方法通過(guò)復(fù)制現(xiàn)有預(yù)訓(xùn)練大語(yǔ)言模型（LLM）中的Transformer塊來(lái)增強(qiáng)模型的能力。新添加的塊中的線性層被初始化為零，以實(shí)現(xiàn)恒等映射

原文鏈接：Llama2-7B升級(jí)為Pro版本！騰訊提出「塊擴(kuò)展」訓(xùn)練法，效果全面提升

聯(lián)系作者

文章來(lái)源：夕小瑤科技說(shuō)
作者微信：xixiaoyaoQAQ
作者簡(jiǎn)介：更快的AI前沿，更深的行業(yè)洞見(jiàn)。聚集25萬(wàn)AI應(yīng)用開(kāi)發(fā)者、算法工程師和研究人員。一線作者均來(lái)自清北、國(guó)外頂級(jí)AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠，兼?zhèn)涿襟wsense與技術(shù)深度。

閱讀原文