30%參數(shù)達到92%的表現(xiàn)，大模型稀疏化方法顯神通

AIGC動態(tài)1年前 (2024)發(fā)布夕小瑤科技說

AIGC動態(tài)歡迎閱讀

原標題：30%參數(shù)達到92%的表現(xiàn)，大模型稀疏化方法顯神通
關(guān)鍵字：模型,方法,數(shù)據(jù),任務(wù),上下文
文章來源：夕小瑤科技說
內(nèi)容字數(shù)：6338字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | Axe_越當我還是一位懵懂少年的時候，總認為“任務(wù)難度”，“參數(shù)規(guī)模”和“準確率”是一個不可兼顧的三角，比如當我想要挑戰(zhàn)更難的任務(wù)，追求獲得更高的準確率，那必然就要在更大的模型參數(shù)量上進行妥協(xié)。然而，真的是這樣嗎？
而在千帆閱盡以后，我才終于開始感悟到，
“小孩子才做選擇，成年人全部都要”
論文標題Enabling High-Sparsity Foundational Llama Models With Efficient Pretraining and Deployment
論文鏈接https://arxiv.org/pdf/2405.03594.pdf
到底怎樣才能把你變小過去我們在做工程優(yōu)化時，常常會出現(xiàn)這樣的一段對話：
由于在量化（quantization）過程中，只保留每個參數(shù)的4位或8位數(shù)值參與運算，因此不可避免地會帶來準確度損失。除了量化以外，權(quán)重剪枝（weight pruning）也是一個常見的模型壓縮辦法，它通過讓部分參數(shù)為0來提高推理速度。然而，權(quán)重剪枝同樣面臨降準確率的問題，尤其是在面臨復雜任務(wù)的時候。
今天我們介紹的這篇文章，就致力于

原文鏈接：30%參數(shù)達到92%的表現(xiàn)，大模型稀疏化方法顯神通

聯(lián)系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業(yè)、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內(nèi)外機構(gòu)投資人，互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠，兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作：zym5189

閱讀原文