清華提出 SoRA,參數(shù)量只有 LoRA 的 70%,表現(xiàn)更好!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:清華提出 SoRA,參數(shù)量只有 LoRA 的 70%,表現(xiàn)更好!
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):9507字
內(nèi)容摘要:夕小瑤科技說 原創(chuàng)作者 | 智商掉了一地、Python現(xiàn)在有很多關(guān)于大型語言模型(LLM)的研究,都圍繞著如何高效微調(diào)展開。微調(diào)是利用模型在大規(guī)模通用數(shù)據(jù)上學(xué)到的知識(shí),通過有針對(duì)性的小規(guī)模下游任務(wù)數(shù)據(jù),使模型更好地適應(yīng)具體任務(wù)的訓(xùn)練方法。在先前的工作中,全量微調(diào)的訓(xùn)練代價(jià)昂貴、Adapter Tuning 的訓(xùn)練和推理存在延遲,Prefix Tuning 會(huì)減少原始訓(xùn)練數(shù)據(jù)中的有效文字長度,因此有人提出使用低秩微調(diào) LoRA,在原始預(yù)訓(xùn)練矩陣的旁路上,用低秩矩陣 A 和 B 來近似替代增量更新。近期,又有了新方法助力大型語言模型更高效地適應(yīng)任務(wù)!來自清華的研究團(tuán)隊(duì)在 LoRA 的基礎(chǔ)上,提出了一項(xiàng)名為 Sparse Low-Rank Adaptation(SoRA)的創(chuàng)新微調(diào)方法,通過動(dòng)態(tài)調(diào)整內(nèi)在秩,實(shí)現(xiàn)了對(duì)預(yù)訓(xùn)練模型的高效微調(diào)。SoRA 不僅在多項(xiàng)任務(wù)上取得了令人矚目的性能,而且通過稀疏…
原文鏈接:點(diǎn)此閱讀原文:清華提出 SoRA,參數(shù)量只有 LoRA 的 70%,表現(xiàn)更好!
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來自清北、國外頂級(jí)AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。