AIGC動態歡迎閱讀
原標題:比LoRA更高效!上交大&哈佛推出新微調框架,瞄準特定任務方向
關鍵字:方向,矩陣,任務,定義,向量
文章來源:量子位
內容字數:0字
內容摘要:
DV lab 投稿量子位 | 公眾號 QbitAI比LoRA更高效的模型微調方法來了——
以常識推理為例,在參數量減少8~16倍的情況下,兩種方法能達到相同效果。
新方法名叫LoRA-Dash,由來自上海交通大學和哈佛大學的研究人員提出,主要針對特定任務微調模型往往需要大量計算資源這一痛點。
研究完成的主要工作是:
對高效微調過程中的TSD(Task-specific Directions, 特定任務方向)進行了嚴格定義,并詳細分析了其性質。
為了進一步釋放TSD在下游任務中的潛力,提出新的高效微調方法LoRA-Dash。
來看具體內容。
從頭搭建特定任務方向的框架隨著大型語言模型的發展,針對特定任務微調模型往往需要大量計算資源。
為了解決這一問題,參數高效微調(PEFT)策略應運而生,像LoRA等方法被廣泛應用。
在LoRA中,作者們通過一系列實驗發現,LoRA本質上是捕捉一些預訓練中已學習到的但并不重要的方向,這些方向對應的特征在之后的下游任務中被LoRA放大。
LoRA把這些方向定義為“特定任務方向”(Task-specific Directions, TSD)。
然而,在LoR
原文鏈接:比LoRA更高效!上交大&哈佛推出新微調框架,瞄準特定任務方向
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...