清華提出 SoRA，參數(shù)量只有 LoRA 的 70%，表現(xiàn)更好！

AIGC動(dòng)態(tài)1年前 (2023)發(fā)布夕小瑤科技說

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：清華提出 SoRA，參數(shù)量只有 LoRA 的 70%，表現(xiàn)更好！

文章來源：夕小瑤科技說

內(nèi)容字?jǐn)?shù)：9507字

內(nèi)容摘要：夕小瑤科技說原創(chuàng)作者 | 智商掉了一地、Python現(xiàn)在有很多關(guān)于大型語言模型（LLM）的研究，都圍繞著如何高效微調(diào)展開。微調(diào)是利用模型在大規(guī)模通用數(shù)據(jù)上學(xué)到的知識(shí)，通過有針對(duì)性的小規(guī)模下游任務(wù)數(shù)據(jù)，使模型更好地適應(yīng)具體任務(wù)的訓(xùn)練方法。在先前的工作中，全量微調(diào)的訓(xùn)練代價(jià)昂貴、Adapter Tuning 的訓(xùn)練和推理存在延遲，Prefix Tuning 會(huì)減少原始訓(xùn)練數(shù)據(jù)中的有效文字長度，因此有人提出使用低秩微調(diào) LoRA，在原始預(yù)訓(xùn)練矩陣的旁路上，用低秩矩陣 A 和 B 來近似替代增量更新。近期，又有了新方法助力大型語言模型更高效地適應(yīng)任務(wù)！來自清華的研究團(tuán)隊(duì)在 LoRA 的基礎(chǔ)上，提出了一項(xiàng)名為 Sparse Low-Rank Adaptation（SoRA）的創(chuàng)新微調(diào)方法，通過動(dòng)態(tài)調(diào)整內(nèi)在秩，實(shí)現(xiàn)了對(duì)預(yù)訓(xùn)練模型的高效微調(diào)。SoRA 不僅在多項(xiàng)任務(wù)上取得了令人矚目的性能，而且通過稀疏…

原文鏈接：點(diǎn)此閱讀原文：清華提出 SoRA，參數(shù)量只有 LoRA 的 70%，表現(xiàn)更好！