今日arXiv最熱大模型論文:LoRA又有新用途,學(xué)得少忘得也少,成持續(xù)學(xué)習(xí)關(guān)鍵!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:今日arXiv最熱大模型論文:LoRA又有新用途,學(xué)得少忘得也少,成持續(xù)學(xué)習(xí)關(guān)鍵!
關(guān)鍵字:參數(shù),任務(wù),模型,數(shù)學(xué),矩陣
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):5721字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | Axe_越自大模型(LLM)誕生以來(lái),苦于其高成本高消耗的訓(xùn)練模式,學(xué)界和業(yè)界也在努力探索更為高效的參數(shù)微調(diào)方法。其中Low-Rank Adaptation(LoRA)自其誕生以來(lái),就因其較低的資源消耗而受到廣泛關(guān)注和使用。
LoRA通過(guò)學(xué)習(xí)低秩擾動(dòng)(low-rank perturbations),從而在使用大模型適配下游任務(wù)時(shí),只需要訓(xùn)練少量的參數(shù)即可達(dá)到一個(gè)很好的效果。盡管LoRA在資源效率上有明顯優(yōu)勢(shì),但其在處理復(fù)雜領(lǐng)域任務(wù)時(shí)的性能表現(xiàn)如何,尚未有定論。本文旨在填補(bǔ)這一空缺,以編程和數(shù)學(xué)兩個(gè)具有挑戰(zhàn)性的領(lǐng)域任務(wù)為例,探討LoRA與全參數(shù)微調(diào)的性能。
論文標(biāo)題:LoRA Learns Less and Forgets Less
論文鏈接:https://arxiv.org/pdf/2405.09673
LoRA方法概述LoRA的思想非常簡(jiǎn)單,對(duì)于神經(jīng)網(wǎng)絡(luò)中的某些線性層(比如 Transformer 架構(gòu)中的多頭自注意力的權(quán)重矩陣 Q,K,V 或者前饋神經(jīng)網(wǎng)絡(luò)層的 W),不是直接對(duì)這些大參數(shù)矩陣的所有元素進(jìn)行更新,而是引入較小的矩陣 A 和 B,并使得這些
原文鏈接:今日arXiv最熱大模型論文:LoRA又有新用途,學(xué)得少忘得也少,成持續(xù)學(xué)習(xí)關(guān)鍵!
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬(wàn)AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189