AIGC動態歡迎閱讀
原標題:LoRA、完全微調到底有何不同?MIT 21頁論文講明白了
關鍵字:維度,模型,報告,向量,任務
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:陳陳、小舟本文旨在了解兩種微調大型語言模型方法之間的差異:完全微調和低秩自適應 (LoRA)。這兩種方法都用于將預訓練模型適應特定的下游任務,但它們卻有所不同。微調(Fine-tuning)是將經過預訓練的大語言模型應用于下游任務的關鍵范例。最近,低秩自適應 (LoRA) 等方法已被證明可以在各種任務上達到完全微調模型的性能,同時可訓練參數的數量卻大大減少。
這就提出一個問題,即它們學到的解決方案真的等效嗎?
帶著這一疑問,來自 MIT 的研究者在論文《 LORA VS FULL FINE-TUNING: AN ILLUSION OF EQUIVALENCE 》中進行了深入探討。論文地址:https://arxiv.org/pdf/2410.21228v1作者通過分析預訓練模型權重矩陣的光譜特性來研究不同的微調方法如何改變模型。
研究發現,完全微調與 LoRA 產生的權重矩陣奇異值分解結構有顯著不同,并且經過微調后的模型在面對超出適應任務分布的測試時也顯示出不同的泛化行為。
特別是,LoRA 訓練的權重矩陣現了稱為「侵入維度(intruder dimension
原文鏈接:LoRA、完全微調到底有何不同?MIT 21頁論文講明白了
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...