LoRA、完全微調(diào)到底有何不同?MIT 21頁論文講明白了
AIGC動態(tài)歡迎閱讀
原標題:LoRA、完全微調(diào)到底有何不同?MIT 21頁論文講明白了
關(guān)鍵字:維度,模型,報告,向量,任務
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
機器之心報道
編輯:陳陳、小舟本文旨在了解兩種微調(diào)大型語言模型方法之間的差異:完全微調(diào)和低秩自適應 (LoRA)。這兩種方法都用于將預訓練模型適應特定的下游任務,但它們卻有所不同。微調(diào)(Fine-tuning)是將經(jīng)過預訓練的大語言模型應用于下游任務的關(guān)鍵范例。最近,低秩自適應 (LoRA) 等方法已被證明可以在各種任務上達到完全微調(diào)模型的性能,同時可訓練參數(shù)的數(shù)量卻大大減少。
這就提出一個問題,即它們學到的解決方案真的等效嗎?
帶著這一疑問,來自 MIT 的研究者在論文《 LORA VS FULL FINE-TUNING: AN ILLUSION OF EQUIVALENCE 》中進行了深入探討。論文地址:https://arxiv.org/pdf/2410.21228v1作者通過分析預訓練模型權(quán)重矩陣的光譜特性來研究不同的微調(diào)方法如何改變模型。
研究發(fā)現(xiàn),完全微調(diào)與 LoRA 產(chǎn)生的權(quán)重矩陣奇異值分解結(jié)構(gòu)有顯著不同,并且經(jīng)過微調(diào)后的模型在面對超出適應任務分布的測試時也顯示出不同的泛化行為。
特別是,LoRA 訓練的權(quán)重矩陣現(xiàn)了稱為「侵入維度(intruder dimension
原文鏈接:LoRA、完全微調(diào)到底有何不同?MIT 21頁論文講明白了
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介: