AIGC動態歡迎閱讀
原標題:30%參數達到92%的表現,大模型稀疏化方法顯神通
關鍵字:模型,方法,數據,任務,上下文
文章來源:夕小瑤科技說
內容字數:6338字
內容摘要:
夕小瑤科技說 原創作者 | Axe_越當我還是一位懵懂少年的時候,總認為“任務難度”,“參數規模”和“準確率”是一個不可兼顧的三角,比如當我想要挑戰更難的任務,追求獲得更高的準確率,那必然就要在更大的模型參數量上進行妥協。然而,真的是這樣嗎?
而在千帆閱盡以后,我才終于開始感悟到,
“小孩子才做選擇,成年人全部都要”
論文標題Enabling High-Sparsity Foundational Llama Models With Efficient Pretraining and Deployment
論文鏈接https://arxiv.org/pdf/2405.03594.pdf
到底怎樣才能把你變小過去我們在做工程優化時,常常會出現這樣的一段對話:
由于在量化(quantization)過程中,只保留每個參數的4位或8位數值參與運算,因此不可避免地會帶來準確度損失。除了量化以外,權重剪枝(weight pruning)也是一個常見的模型壓縮辦法,它通過讓部分參數為0來提高推理速度。然而,權重剪枝同樣面臨降準確率的問題,尤其是在面臨復雜任務的時候。
今天我們介紹的這篇文章,就致力于
原文鏈接:30%參數達到92%的表現,大模型稀疏化方法顯神通
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...