改變LoRA的初始化方式,北大新方法PiSSA顯著提升微調(diào)效果
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:改變LoRA的初始化方式,北大新方法PiSSA顯著提升微調(diào)效果
關(guān)鍵字:模型,初始化,參數(shù),分解,向量
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7932字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部隨著大模型的參數(shù)量日益增長,微調(diào)整個(gè)模型的開銷逐漸變得難以接受。
為此,北京大學(xué)的研究團(tuán)隊(duì)提出了一種名為 PiSSA 的參數(shù)高效微調(diào)方法,在主流數(shù)據(jù)集上都超過了目前廣泛使用的 LoRA 的微調(diào)效果。論文: PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models
論文鏈接: https://arxiv.org/pdf/2404.02948.pdf
代碼鏈接: https://github.com/GraphPKU/PiSSA
如圖 1 所示,PiSSA (圖 1c) 在模型架構(gòu)上和 LoRA [1] 完全一致 (圖 1b),只是初始化 Adapter 的方式不同。LoRA 使用高斯噪聲初始化 A,使用 0 初始化 B。而 PiSSA 使用主奇異值和奇異向量 (Principal Singular values and Singular vectors) 來初始化 Adapter 來初始化 A 和 B。圖 1)從左到右依次為全參數(shù)微調(diào)、Lo
原文鏈接:改變LoRA的初始化方式,北大新方法PiSSA顯著提升微調(diào)效果
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)