今日arXiv最熱大模型論文:超越LoRA,北京大學提出預訓練模型非梯度優(yōu)化法

AIGC動態(tài)歡迎閱讀
原標題:今日arXiv最熱大模型論文:超越LoRA,北京大學提出預訓練模型非梯度優(yōu)化法
關鍵字:模型,方法,導數(shù),研究者,梯度
文章來源:夕小瑤科技說
內容字數(shù):6940字
內容摘要:
夕小瑤科技說 原創(chuàng)編輯 | 松果
引言:探索大型語言模型中低秩適應的新方法在自然語言處理領域,大語言模型(LLMs)的迅猛發(fā)展帶來了前所未有的性能提升。然而,隨之而來的是模型參數(shù)數(shù)量的激增,這不僅導致了調優(yōu)成本的線性增長,也給在常規(guī)硬件上進行微調帶來了挑戰(zhàn)。為了解決這一問題,研究者們提出了一系列參數(shù)高效的調優(yōu)方法,如LoRA,它們通過只調整模型中一小部分參數(shù)來實現(xiàn)與全參數(shù)微調相當?shù)男阅堋1M管這些方法能夠降低約30%的GPU內存需求,但仍需要計算梯度和進行反向傳播,這對于大語言模型的使用和部署提出了挑戰(zhàn)。
近期,研究者們開始探索無導數(shù)優(yōu)化(derivative-free optimization, DFO)方法,以避免梯度計算,并在少量樣本(few-shot)設置中展示出更強的魯棒性。本文提出了一種新的無導數(shù)優(yōu)化方法,通過在每個自注意力層前置低秩模塊,并交替使用兩種無導數(shù)優(yōu)化方法來優(yōu)化這些低秩模塊。實驗結果表明,與現(xiàn)有的基于梯度的參數(shù)高效調優(yōu)方法和無導數(shù)優(yōu)化方法相比,該新方法在各種任務和語言模型上都取得了顯著的改進,并在內存使用和收斂速度方面展現(xiàn)了明顯的優(yōu)勢。
論文標題:Derivati
原文鏈接:今日arXiv最熱大模型論文:超越LoRA,北京大學提出預訓練模型非梯度優(yōu)化法
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI一線開發(fā)者、互聯(lián)網(wǎng)中高管和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼?zhèn)湫袠I(yè)嗅覺與報道深度。

粵公網(wǎng)安備 44011502001135號