參數(shù)少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微調(diào)框架FLoRA
AIGC動態(tài)歡迎閱讀
原標題:參數(shù)少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微調(diào)框架FLoRA
關(guān)鍵字:張量,參數(shù),維度,卷積,方法
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
Huiser 投稿量子位 | 公眾號 QbitAI為了讓大模型在特定任務(wù)、場景下發(fā)揮更大作用,LoRA這樣能夠平衡性能和算力資源的方在受到研究者們的青睞。
然而,以LoRA為代表的眾多低秩微調(diào)方法(包括DoRA, MoRA, AdaLoRA等衍生方法)仍存在一個問題:
它們通常通常都更適合Linear層,Embedding層這類“直入直出”的低維度張量,忽略了對更高維度甚至N維張量的考慮。
盡管這些方法可以通過一定方式將高維度張量轉(zhuǎn)化為2D張量來微調(diào)參數(shù),如LoRA將Conv2D卷積層參數(shù)所具有的四維張量轉(zhuǎn)化為二維張量。但其存在兩方面的挑戰(zhàn):
這種將卷積核拆開分別reshape到,維度上的方法雖然避免了參數(shù)的大規(guī)模增加,但是破壞了卷積核本身的結(jié)構(gòu)特性。這對于密集預(yù)測類任務(wù)所需要的局部歸納偏置是一種負向影響。
隨著張量維度的升高,reshape為二維的方式會造成急劇的參數(shù)量增加,背離了參數(shù)高效微調(diào)方法的初衷。
為了解決以上兩個問題,來自上海交通大學、上海AI Lab的研究人員提出了FLoRA方法(flora意為植物群,具有廣泛的寓意)。
以視覺任務(wù)為例,F(xiàn)LoRA能在比LoRA少80
原文鏈接:參數(shù)少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微調(diào)框架FLoRA
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破