AIGC動態歡迎閱讀
原標題:給Transformer降降秩,移除特定層90%以上組件LLM性能不減
關鍵字:模型,矩陣,研究者,權重,性能
文章來源:機器之心
內容字數:5479字
內容摘要:
機器之心報道
編輯:陳萍、杜偉MIT、微軟聯合研究:不需要額外訓練,也能增強大語言模型的任務性能并降低其大小。在大模型時代,Transformer 憑一己之力撐起了整個科研領域。自發布以來,基于 Transformer 的 LLM 在各種任務上表現出卓越的性能,其底層的 Transformer 架構已成為自然語言建模和推理的最先進技術,并在計算機視覺和強化學習等領域顯示出強有力的前景。
然而,當前 Transformer 架構非常龐大,通常需要大量計算資源來進行訓練和推理。
這是有意為之的,因為經過更多參數或數據訓練的 Transformer 顯然比其他模型更有能力。盡管如此,越來越多的工作表明,基于 Transformer 的模型以及神經網絡不需要所有擬合參數來保留其學到的假設。
一般來講,在訓練模型時大規模過度參數化似乎很有幫助,但這些模型可以在推理之前進行大幅剪枝;有研究表明神經網絡通常可以去除 90% 以上的權重,而性能不會出現任何顯著下降。這種現象促使研究者開始轉向有助于模型推理的剪枝策略研究。
來自 MIT、微軟的研究者在論文《 The Truth is in There:
原文鏈接:給Transformer降降秩,移除特定層90%以上組件LLM性能不減
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...