AIGC動態歡迎閱讀
原標題:LoRA數學編程任務不敵全量微調 | 哥大&Databricks新研究
關鍵字:矩陣,任務,模型,作者,權重
文章來源:量子位
內容字數:5854字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI大數據巨頭Databricks與哥倫比亞大學最新研究發現,在數學和編程任務上,LoRA干不過全量微調。
具體來說,在這兩種任務中,LoRA模型的精確度只有后者的八到九成左右。
不過,作者也發現,LoRA雖然學得少,但是“記憶力”卻更好,遺忘現象要比全量微調少得多。
究其原因,作者認為是數學和代碼任務的特性與LoRA的低秩“八字不合”,遺忘更少也與秩相關。
但LoRA的一個公認的優勢是訓練成本更低;而且相比全量微調,能夠更好地保持原有模型性能。
于是,網友們的看法也自然地分成了兩派:
一波人認為,單純考慮降低成本用LoRA,表現卻顯著降低,這是不可接受的。
更具針對性的,有人指出,對于數學和代碼這樣對精度要求高的任務,一定要最大程度地保證性能,哪怕犧牲一些訓練成本。
另一波機器學習工程師則認為,作者的一些實驗參數設置不當,造成這種現象的原因不一定是LoRA本身。
質疑的具體理由我們放到后面詳細講解,先來看看作者的研究都有哪些發現。
學的更少,但忘的也少實驗中,作者使用7B參數的Llama2作為基礎模型,在持續預訓練和監督微調兩種模式下分
原文鏈接:LoRA數學編程任務不敵全量微調 | 哥大&Databricks新研究
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...