LoRA數學編程任務不敵全量微調 | 哥大&Databricks新研究

AIGC動態歡迎閱讀

原標題：LoRA數學編程任務不敵全量微調 | 哥大&Databricks新研究
關鍵字：矩陣,任務,模型,作者,權重
文章來源：量子位
內容字數：5854字

內容摘要：

克雷西發自凹非寺量子位 | 公眾號 QbitAI大數據巨頭Databricks與哥倫比亞大學最新研究發現，在數學和編程任務上，LoRA干不過全量微調。
具體來說，在這兩種任務中，LoRA模型的精確度只有后者的八到九成左右。
不過，作者也發現，LoRA雖然學得少，但是“記憶力”卻更好，遺忘現象要比全量微調少得多。
究其原因，作者認為是數學和代碼任務的特性與LoRA的低秩“八字不合”，遺忘更少也與秩相關。
但LoRA的一個公認的優勢是訓練成本更低；而且相比全量微調，能夠更好地保持原有模型性能。
于是，網友們的看法也自然地分成了兩派：
一波人認為，單純考慮降低成本用LoRA，表現卻顯著降低，這是不可接受的。
更具針對性的，有人指出，對于數學和代碼這樣對精度要求高的任務，一定要最大程度地保證性能，哪怕犧牲一些訓練成本。
另一波機器學習工程師則認為，作者的一些實驗參數設置不當，造成這種現象的原因不一定是LoRA本身。
質疑的具體理由我們放到后面詳細講解，先來看看作者的研究都有哪些發現。
學的更少，但忘的也少實驗中，作者使用7B參數的Llama2作為基礎模型，在持續預訓練和監督微調兩種模式下分

原文鏈接：LoRA數學編程任務不敵全量微調 | 哥大&Databricks新研究