AIGC動態歡迎閱讀
原標題:今日arXiv最熱大模型論文:超越LoRA,北京大學提出預訓練模型非梯度優化法
關鍵字:模型,方法,導數,研究者,梯度
文章來源:夕小瑤科技說
內容字數:6940字
內容摘要:
夕小瑤科技說 原創編輯 | 松果
引言:探索大型語言模型中低秩適應的新方法在自然語言處理領域,大語言模型(LLMs)的迅猛發展帶來了前所未有的性能提升。然而,隨之而來的是模型參數數量的激增,這不僅導致了調優成本的線性增長,也給在常規硬件上進行微調帶來了挑戰。為了解決這一問題,研究者們提出了一系列參數高效的調優方法,如LoRA,它們通過只調整模型中一小部分參數來實現與全參數微調相當的性能。盡管這些方法能夠降低約30%的GPU內存需求,但仍需要計算梯度和進行反向傳播,這對于大語言模型的使用和部署提出了挑戰。
近期,研究者們開始探索無導數優化(derivative-free optimization, DFO)方法,以避免梯度計算,并在少量樣本(few-shot)設置中展示出更強的魯棒性。本文提出了一種新的無導數優化方法,通過在每個自注意力層前置低秩模塊,并交替使用兩種無導數優化方法來優化這些低秩模塊。實驗結果表明,與現有的基于梯度的參數高效調優方法和無導數優化方法相比,該新方法在各種任務和語言模型上都取得了顯著的改進,并在內存使用和收斂速度方面展現了明顯的優勢。
論文標題:Derivati
原文鏈接:今日arXiv最熱大模型論文:超越LoRA,北京大學提出預訓練模型非梯度優化法
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI一線開發者、互聯網中高管和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備行業嗅覺與報道深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...