僅微調(diào)0.02%參數(shù),性能接近全量微調(diào)!上交大推出高效微調(diào)統(tǒng)一新范式
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:僅微調(diào)0.02%參數(shù),性能接近全量微調(diào)!上交大推出高效微調(diào)統(tǒng)一新范式
關(guān)鍵字:空間,方法,權(quán)重,矩陣,研究者
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
ChouJay 投稿量子位 | 公眾號(hào) QbitAIScaling Laws當(dāng)?shù)溃S著大模型應(yīng)用的發(fā)展,基礎(chǔ)模型不斷擴(kuò)大的參數(shù)也成了令開(kāi)發(fā)者們頭疼的問(wèn)題。
為了減輕訓(xùn)練負(fù)擔(dān),Adapter、Prompt-Tuning以及LoRA等高效微調(diào)(Parameter Efficient Fine-Tuning, PEFT)算法越來(lái)越受到大家伙的青睞。
那么,問(wèn)題來(lái)了——
盡管近年來(lái)高效微調(diào)領(lǐng)域發(fā)展迅速,涌現(xiàn)了多種方法,但不同PEFT方法背后的數(shù)學(xué)基礎(chǔ)幾乎沒(méi)有得到深入研究。
此外,不同PEFT方法之間的性能差異及其原因尚未系統(tǒng)地探討。這種理論深度的缺乏限制了研究者對(duì)這些方法潛在優(yōu)勢(shì)和局限性的理解,阻礙了它們?cè)趯?shí)際應(yīng)用中的優(yōu)化和創(chuàng)新。
為了解決這一問(wèn)題,來(lái)自上海交通大學(xué)的研究者們?cè)趯?duì)各種PEFT方法進(jìn)行全面數(shù)學(xué)分析后,提出了一種新的框架——子空間微調(diào),旨在將所有已知的PEFT方法統(tǒng)一在一個(gè)理論下,
具體來(lái)說(shuō),子空間微調(diào)方法主要集中于調(diào)整原始參數(shù)的子空間,涉及子空間的重構(gòu)和擴(kuò)展。研究者深入探討了不同方法如何操作子空間,并從分解理論的角度闡明了每種方法的數(shù)學(xué)原理。此外,研究者分析了為什么這些方導(dǎo)
原文鏈接:僅微調(diào)0.02%參數(shù),性能接近全量微調(diào)!上交大推出高效微調(diào)統(tǒng)一新范式
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介: