英偉達玩轉剪枝、蒸餾：把Llama 3.1 8B參數減半，性能同尺寸更強

AIGC動態歡迎閱讀

原標題：英偉達玩轉剪枝、蒸餾：把Llama 3.1 8B參數減半，性能同尺寸更強
關鍵字：模型,準確率,重要性,損失,深度
文章來源：機器之心
內容字數：0字

內容摘要：

機器之心報道
編輯：杜偉、陳陳、澤南小模型崛起了。上個月，Meta 發布了 Llama 3.1 系列模型，其中包括 Meta 迄今為止最大的 405B 模型，以及兩個較小的模型，參數量分別為 700 億和 80 億。
Llama 3.1 被認為是引領了開源新時代。然而，新一代的模型雖然性能強大，但部署時仍需要大量計算資源。
因此，業界出現了另一種趨勢，即開發小型語言模型 (SLM)，這種模型在許多語言任務中表現足夠出色，部署起來也非常便宜。
最近，英偉達研究表明，結構化權重剪枝與知識蒸餾相結合，可以從初始較大的模型中逐步獲得較小的語言模型。圖靈獎得主、Meta 首席 AI 科學家 Yann LeCun 也點贊轉帖了該研究。
經過剪枝和蒸餾，英偉達研究團隊將 Llama 3.1 8B 提煉為 Llama-3.1-Minitron 4B 開源了出來。這是英偉達在 Llama 3.1 開源系列中的第一個作品。
Llama-3.1-Minitron 4B 的表現優于類似大小的最先進的開源模型，包括 Minitron 4B、Phi-2 2.7B、Gemma2 2.6B 和 Qwen2-1.5B。

原文鏈接：英偉達玩轉剪枝、蒸餾：把Llama 3.1 8B參數減半，性能同尺寸更強