AIGC動態歡迎閱讀
原標題:無需額外訓練提升模型30%性能!DeepMind科學家點贊MIT博士生實習成果
關鍵字:模型,矩陣,權重,組件,性能
文章來源:量子位
內容字數:4117字
內容摘要:
豐色 發自 凹非寺量子位 | 公眾號 QbitAI一個來自MIT博士生的驚人發現:
只需對Transformer的特定層進行一種非常簡單的修剪,即可在縮小模型規模的同時顯著提高模型性能。
效果主要體現在文本理解任務上,最高可達30%。
這在3個模型(LLama2、GPT-J和Roberta)和8個不同數據集上都得到了驗證(包含認知推理、世界知識等)。
除了文本理解,它也適用于強化學習。
當然,更重要的是,這個操作只需在模型訓練完成之后進行,不需要額外的參數和數據。
DeepMind研究科學家看完都來點贊了:
那么,它具體怎么做的?
方法概述該方法全稱“ Layer-Selective Rank Reduction”,簡稱“LASER”。
這是一種選擇性地去除LLM權重矩陣高階組件(components)的干預措施,操作就在Transformer模型的特定權重矩陣和層中進行。
研究發現,即使完全去除90%以上,模型性能一般也不會下降。
具體而言,LASER通過rank-k近似來替換Transformer模型中的特定權重矩陣(W),有時僅減少包含前1%組件的矩陣,也能達到不錯的效果。
一個
原文鏈接:無需額外訓練提升模型30%性能!DeepMind科學家點贊MIT博士生實習成果
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...