參數(shù)更新量僅為LoRA的5%,性能不減反升!南加大提出高效精調(diào)法LaMDA

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:參數(shù)更新量僅為LoRA的5%,性能不減反升!南加大提出高效精調(diào)法LaMDA
關(guān)鍵字:參數(shù),模型,任務(wù),性能,數(shù)量
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | Axe_越萬物負(fù)陰而抱陽,沖氣以為和
——《道德經(jīng)·第四十二章》
從Bert時(shí)代一路過來的朋友們應(yīng)該還記得,對于僅僅只有1億參數(shù)的Bert,在特定任務(wù)上做一個(gè)全參數(shù)微調(diào)(Full Parameter Fine-tuning,F(xiàn)PFT),那簡直是再正常不過的操作。即使想不開要對Bert重新做個(gè)預(yù)訓(xùn)練(Pretraining),也無礙乎是“幾張卡+幾天”的事情,根本無傷大雅。
隨著模型參數(shù)規(guī)模逐漸從1億擴(kuò)大到現(xiàn)在的百億、千億,全參數(shù)微調(diào),哪怕是LoRA等僅更新部分參數(shù)的參數(shù)高效微調(diào)方法(Parameter Efficient Fine-Tuning,PEFT)也已經(jīng)變成了一種奢侈的事情,因此我們開始轉(zhuǎn)入對“盡可能影響更少的參數(shù)、讓模型變得更快、資源消耗變得更低”的“小型化”追求。
今天要介紹的這篇文章,在LoRA的基礎(chǔ)上,把模型訓(xùn)練時(shí)的參數(shù)更新量進(jìn)一步縮小了將近20倍!不但如此,甚至還獲得了相對更好的表現(xiàn)。這對我們眾多資源匱乏黨來說,無疑是一個(gè)巨大驚喜,就讓我們來看看,它到底是怎么做到的!
論文標(biāo)題:LaMDA: Large Model Fine-Tuning
原文鏈接:參數(shù)更新量僅為LoRA的5%,性能不減反升!南加大提出高效精調(diào)法LaMDA
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189

粵公網(wǎng)安備 44011502001135號