AIGC動態歡迎閱讀
原標題:參數更新量僅為LoRA的5%,性能不減反升!南加大提出高效精調法LaMDA
關鍵字:參數,模型,任務,性能,數量
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | Axe_越萬物負陰而抱陽,沖氣以為和
——《道德經·第四十二章》
從Bert時代一路過來的朋友們應該還記得,對于僅僅只有1億參數的Bert,在特定任務上做一個全參數微調(Full Parameter Fine-tuning,FPFT),那簡直是再正常不過的操作。即使想不開要對Bert重新做個預訓練(Pretraining),也無礙乎是“幾張卡+幾天”的事情,根本無傷大雅。
隨著模型參數規模逐漸從1億擴大到現在的百億、千億,全參數微調,哪怕是LoRA等僅更新部分參數的參數高效微調方法(Parameter Efficient Fine-Tuning,PEFT)也已經變成了一種奢侈的事情,因此我們開始轉入對“盡可能影響更少的參數、讓模型變得更快、資源消耗變得更低”的“小型化”追求。
今天要介紹的這篇文章,在LoRA的基礎上,把模型訓練時的參數更新量進一步縮小了將近20倍!不但如此,甚至還獲得了相對更好的表現。這對我們眾多資源匱乏黨來說,無疑是一個巨大驚喜,就讓我們來看看,它到底是怎么做到的!
論文標題:LaMDA: Large Model Fine-Tuning
原文鏈接:參數更新量僅為LoRA的5%,性能不減反升!南加大提出高效精調法LaMDA
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189