Llama2-7B升級(jí)為Pro版本!騰訊提出「塊擴(kuò)展」訓(xùn)練法,效果全面提升
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Llama2-7B升級(jí)為Pro版本!騰訊提出「塊擴(kuò)展」訓(xùn)練法,效果全面提升
關(guān)鍵字:模型,騰訊,方法,領(lǐng)域,初始化
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):4491字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 付奶茶、python大語(yǔ)言模型在編程、數(shù)學(xué)、生物醫(yī)學(xué)和金融等專(zhuān)業(yè)領(lǐng)域性能不佳,通過(guò)特定領(lǐng)域后訓(xùn)練可在降低資源消耗的同時(shí)提升性能。但是,后訓(xùn)練可能導(dǎo)致災(zāi)難性遺忘,從而削弱模型原有的通用處理能力,限制了其在多元任務(wù)上的應(yīng)用。
騰訊最近發(fā)表的一篇研究論文介紹了一種通過(guò)復(fù)制Transformer塊并用特定領(lǐng)域的數(shù)據(jù)對(duì)新塊進(jìn)行微調(diào)來(lái)擴(kuò)展原始LLM的方法,生成LLaMA Pro-8.3B,初始化自LLaMA2-7B。這種方法使得模型在保持其通用能力的同時(shí),能夠有效融合新的知識(shí)。
論文標(biāo)題:
LLAMA PRO: Progressive LLaMA with Block Expansion
論文鏈接:
https://arxiv.org/pdf/2401.02415.pdf
github代碼:
https://github.com/TencentARC/LLaMA-Pro
塊擴(kuò)展方法本文提出了一種稱(chēng)為“塊擴(kuò)展”的簡(jiǎn)潔而有效的后訓(xùn)練方法。該方法通過(guò)復(fù)制現(xiàn)有預(yù)訓(xùn)練大語(yǔ)言模型(LLM)中的Transformer塊來(lái)增強(qiáng)模型的能力。新添加的塊中的線性層被初始化為零,以實(shí)現(xiàn)恒等映射
原文鏈接:Llama2-7B升級(jí)為Pro版本!騰訊提出「塊擴(kuò)展」訓(xùn)練法,效果全面提升
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:更快的AI前沿,更深的行業(yè)洞見(jiàn)。聚集25萬(wàn)AI應(yīng)用開(kāi)發(fā)者、算法工程師和研究人員。一線作者均來(lái)自清北、國(guó)外頂級(jí)AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。