30%參數(shù)達到92%的表現(xiàn),大模型稀疏化方法顯神通
AIGC動態(tài)歡迎閱讀
原標題:30%參數(shù)達到92%的表現(xiàn),大模型稀疏化方法顯神通
關(guān)鍵字:模型,方法,數(shù)據(jù),任務(wù),上下文
文章來源:夕小瑤科技說
內(nèi)容字數(shù):6338字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | Axe_越當我還是一位懵懂少年的時候,總認為“任務(wù)難度”,“參數(shù)規(guī)模”和“準確率”是一個不可兼顧的三角,比如當我想要挑戰(zhàn)更難的任務(wù),追求獲得更高的準確率,那必然就要在更大的模型參數(shù)量上進行妥協(xié)。然而,真的是這樣嗎?
而在千帆閱盡以后,我才終于開始感悟到,
“小孩子才做選擇,成年人全部都要”
論文標題Enabling High-Sparsity Foundational Llama Models With Efficient Pretraining and Deployment
論文鏈接https://arxiv.org/pdf/2405.03594.pdf
到底怎樣才能把你變小過去我們在做工程優(yōu)化時,常常會出現(xiàn)這樣的一段對話:
由于在量化(quantization)過程中,只保留每個參數(shù)的4位或8位數(shù)值參與運算,因此不可避免地會帶來準確度損失。除了量化以外,權(quán)重剪枝(weight pruning)也是一個常見的模型壓縮辦法,它通過讓部分參數(shù)為0來提高推理速度。然而,權(quán)重剪枝同樣面臨降準確率的問題,尤其是在面臨復雜任務(wù)的時候。
今天我們介紹的這篇文章,就致力于
原文鏈接:30%參數(shù)達到92%的表現(xiàn),大模型稀疏化方法顯神通
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業(yè)、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189