比LoRA還快50%的微調(diào)方法來了！一張3090性能超越全參調(diào)優(yōu)，UIUC聯(lián)合LMFlow團(tuán)隊(duì)提出LISA

AIGC動態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：比LoRA還快50%的微調(diào)方法來了！一張3090性能超越全參調(diào)優(yōu)，UIUC聯(lián)合LMFlow團(tuán)隊(duì)提出LISA
關(guān)鍵字：技術(shù),模型,性質(zhì),算法,消耗
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：3392字

內(nèi)容摘要：

機(jī)器之心專欄
機(jī)器之心編輯部2022 年底，隨著 ChatGPT 的爆火，人類正式進(jìn)入了大模型時(shí)代。然而，訓(xùn)練大模型需要的時(shí)空消耗依然居高不下，給大模型的普及和發(fā)展帶來了巨大困難。面對這一挑戰(zhàn)，原先在計(jì)算機(jī)視覺領(lǐng)域流行的 LoRA 技術(shù)成功轉(zhuǎn)型大模型 [1][2]，帶來了接近 2 倍的時(shí)間加速和理論最高 8 倍的空間壓縮，將微調(diào)技術(shù)帶進(jìn)千家萬戶。
但 LoRA 技術(shù)仍存在一定的挑戰(zhàn)。一是 LoRA 技術(shù)在很多任務(wù)上還沒有超過正常的全參數(shù)微調(diào) [2][3][4]，二是 LoRA 的理論性質(zhì)分析比較困難，給其進(jìn)一步的研究帶來了阻礙。
UIUC 聯(lián)合 LMFlow 團(tuán)隊(duì)成員對 LoRA 的實(shí)驗(yàn)性質(zhì)進(jìn)行了分析，意外發(fā)現(xiàn) LoRA 非常側(cè)重 LLM 的底層和頂層的權(quán)重。利用這一特性，LMFlow 團(tuán)隊(duì)提出一個(gè)極其簡潔的算法：Layerwise Importance Sampled AdamW（LISA）。論文鏈接：https://arxiv.org/abs/2403.17919
開源地址：https://github.com/OptimalScale/LMFlow
LISA 介紹LISA 算法的

原文鏈接：比LoRA還快50%的微調(diào)方法來了！一張3090性能超越全參調(diào)優(yōu)，UIUC聯(lián)合LMFlow團(tuán)隊(duì)提出LISA