AIGC動態歡迎閱讀
原標題:不是大模型全局微調不起,只是LoRA更有性價比,教程已經準備好了
文章來源:機器之心
內容字數:15621字
內容摘要:選自 Sebastian Raschka 博客機器之心編譯編輯:佳琪這是作者 Sebastian Raschka 經過數百次實驗得出的經驗,值得一讀。增加數據量和模型的參數量是公認的提升神經網絡性能最直接的方法。目前主流的大模型的參數量已擴展至千億級別,「大模型」越來越大的趨勢還將愈演愈烈。這種趨勢帶來了多方面的算力挑戰。想要微調參數量達千億級別的大語言模型,不僅訓練時間長,還需占用大量高性能的內存資源。為了讓大模型微調的成本「打下來」,微軟的研究人員開發了低秩自適應(LoRA)技術。LoRA 的精妙之處在于,它相當于在原有大模型的基礎上增加了一個可拆卸的插件,模型主體保持不變。LoRA 隨插隨用,輕巧方便。對于高效微調出一個定制版的大語言模型來說,LoRA 是最為廣泛運用的方法之一,同時也是最有效的方法之一。如果你對開源 LLM 感興趣,LoRA 是值得學習的基本技術,不容錯過。來自威斯…
原文鏈接:點此閱讀原文:不是大模型全局微調不起,只是LoRA更有性價比,教程已經準備好了
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...