無需額外訓練提升模型30%性能！DeepMind科學家點贊MIT博士生實習成果

AIGC動態2年前 (2023)發布量子位

AIGC動態歡迎閱讀

原標題：無需額外訓練提升模型30%性能！DeepMind科學家點贊MIT博士生實習成果
關鍵字：模型,矩陣,權重,組件,性能
文章來源：量子位
內容字數：4117字

內容摘要：

豐色發自凹非寺量子位 | 公眾號 QbitAI一個來自MIT博士生的驚人發現：
只需對Transformer的特定層進行一種非常簡單的修剪，即可在縮小模型規模的同時顯著提高模型性能。
效果主要體現在文本理解任務上，最高可達30%。
這在3個模型（LLama2、GPT-J和Roberta）和8個不同數據集上都得到了驗證（包含認知推理、世界知識等）。
除了文本理解，它也適用于強化學習。
當然，更重要的是，這個操作只需在模型訓練完成之后進行，不需要額外的參數和數據。
DeepMind研究科學家看完都來點贊了：
那么，它具體怎么做的？
方法概述該方法全稱“ Layer-Selective Rank Reduction”，簡稱“LASER”。
這是一種選擇性地去除LLM權重矩陣高階組件（components）的干預措施，操作就在Transformer模型的特定權重矩陣和層中進行。
研究發現，即使完全去除90%以上，模型性能一般也不會下降。
具體而言，LASER通過rank-k近似來替換Transformer模型中的特定權重矩陣（W），有時僅減少包含前1%組件的矩陣，也能達到不錯的效果。
一個

原文鏈接：無需額外訓練提升模型30%性能！DeepMind科學家點贊MIT博士生實習成果