改變LoRA的初始化方式，北大新方法PiSSA顯著提升微調(diào)效果

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：改變LoRA的初始化方式，北大新方法PiSSA顯著提升微調(diào)效果
關(guān)鍵字：模型,初始化,參數(shù),分解,向量
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：7932字

內(nèi)容摘要：

機(jī)器之心專欄
機(jī)器之心編輯部隨著大模型的參數(shù)量日益增長，微調(diào)整個(gè)模型的開銷逐漸變得難以接受。
為此，北京大學(xué)的研究團(tuán)隊(duì)提出了一種名為 PiSSA 的參數(shù)高效微調(diào)方法，在主流數(shù)據(jù)集上都超過了目前廣泛使用的 LoRA 的微調(diào)效果。論文: PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models
論文鏈接: https://arxiv.org/pdf/2404.02948.pdf
代碼鏈接: https://github.com/GraphPKU/PiSSA
如圖 1 所示，PiSSA (圖 1c) 在模型架構(gòu)上和 LoRA [1] 完全一致 (圖 1b)，只是初始化 Adapter 的方式不同。LoRA 使用高斯噪聲初始化 A，使用 0 初始化 B。而 PiSSA 使用主奇異值和奇異向量 (Principal Singular values and Singular vectors) 來初始化 Adapter 來初始化 A 和 B。圖 1）從左到右依次為全參數(shù)微調(diào)、Lo

原文鏈接：改變LoRA的初始化方式，北大新方法PiSSA顯著提升微調(diào)效果