比LoRA還快50%的微調(diào)方法來了!一張3090性能超越全參調(diào)優(yōu),UIUC聯(lián)合LMFlow團(tuán)隊(duì)提出LISA
AIGC動態(tài)歡迎閱讀
原標(biāo)題:比LoRA還快50%的微調(diào)方法來了!一張3090性能超越全參調(diào)優(yōu),UIUC聯(lián)合LMFlow團(tuán)隊(duì)提出LISA
關(guān)鍵字:技術(shù),模型,性質(zhì),算法,消耗
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3392字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部2022 年底,隨著 ChatGPT 的爆火,人類正式進(jìn)入了大模型時(shí)代。然而,訓(xùn)練大模型需要的時(shí)空消耗依然居高不下,給大模型的普及和發(fā)展帶來了巨大困難。面對這一挑戰(zhàn),原先在計(jì)算機(jī)視覺領(lǐng)域流行的 LoRA 技術(shù)成功轉(zhuǎn)型大模型 [1][2],帶來了接近 2 倍的時(shí)間加速和理論最高 8 倍的空間壓縮,將微調(diào)技術(shù)帶進(jìn)千家萬戶。
但 LoRA 技術(shù)仍存在一定的挑戰(zhàn)。一是 LoRA 技術(shù)在很多任務(wù)上還沒有超過正常的全參數(shù)微調(diào) [2][3][4],二是 LoRA 的理論性質(zhì)分析比較困難,給其進(jìn)一步的研究帶來了阻礙。
UIUC 聯(lián)合 LMFlow 團(tuán)隊(duì)成員對 LoRA 的實(shí)驗(yàn)性質(zhì)進(jìn)行了分析,意外發(fā)現(xiàn) LoRA 非常側(cè)重 LLM 的底層和頂層的權(quán)重。利用這一特性,LMFlow 團(tuán)隊(duì)提出一個(gè)極其簡潔的算法:Layerwise Importance Sampled AdamW(LISA)。論文鏈接:https://arxiv.org/abs/2403.17919
開源地址:https://github.com/OptimalScale/LMFlow
LISA 介紹LISA 算法的
原文鏈接:比LoRA還快50%的微調(diào)方法來了!一張3090性能超越全參調(diào)優(yōu),UIUC聯(lián)合LMFlow團(tuán)隊(duì)提出LISA
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺