AIGC動態歡迎閱讀
原標題:英偉達玩轉剪枝、蒸餾:把Llama 3.1 8B參數減半,性能同尺寸更強
關鍵字:模型,準確率,重要性,損失,深度
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:杜偉、陳陳、澤南小模型崛起了。上個月,Meta 發布了 Llama 3.1 系列模型,其中包括 Meta 迄今為止最大的 405B 模型,以及兩個較小的模型,參數量分別為 700 億和 80 億。
Llama 3.1 被認為是引領了開源新時代。然而,新一代的模型雖然性能強大,但部署時仍需要大量計算資源。
因此,業界出現了另一種趨勢,即開發小型語言模型 (SLM),這種模型在許多語言任務中表現足夠出色,部署起來也非常便宜。
最近,英偉達研究表明,結構化權重剪枝與知識蒸餾相結合,可以從初始較大的模型中逐步獲得較小的語言模型。圖靈獎得主、Meta 首席 AI 科學家 Yann LeCun 也點贊轉帖了該研究。
經過剪枝和蒸餾,英偉達研究團隊將 Llama 3.1 8B 提煉為 Llama-3.1-Minitron 4B 開源了出來。這是英偉達在 Llama 3.1 開源系列中的第一個作品。
Llama-3.1-Minitron 4B 的表現優于類似大小的最先進的開源模型,包括 Minitron 4B、Phi-2 2.7B、Gemma2 2.6B 和 Qwen2-1.5B。
原文鏈接:英偉達玩轉剪枝、蒸餾:把Llama 3.1 8B參數減半,性能同尺寸更強
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...