AIGC動態歡迎閱讀
原標題:單卡搞定Llama 3.1 405B,讓大模型輕松瘦身!超強壓縮工具包來了
關鍵字:模型,算法,工具包,精度,團隊
文章來源:量子位
內容字數:0字
內容摘要:
模型工具鏈團隊 投稿量子位 | 公眾號 QbitAI單卡搞定Llama 3.1(405B),最新大模型壓縮工具來了!
最近Llama-3.1登上開源頂峰,但其最強的405B版本模型900多GB的內存需求,對資源構成了更加苛刻的挑戰。
北航、商湯、南洋理工等團隊聯合推出的大模型壓縮工具與基準LLMC,能很好解決這一問題。
它使得一張80G A100即可完成Llama 3.1 405B的校準和評估,從而實現以超低成本進行量化。
它支持多種壓縮算法、模型和推理后端,具有強大的擴展性和全方位的評估能力。
目前,研究團隊已將使用方法放在GitHub主頁上,戳文末鏈接即可獲取。
Llama3.1 更大也更難壓縮低比特量化是解決資源受限問題的通用技術之一。為此,相關研究人員運用了LLMC對Llama 3.1進行了量化壓縮。
結果如表1所示,采用LLMC中的某些算法,例如QuaRot和AWQ等算法在70B和405B參數量的模型上,均能有效保持量化精度。而最為簡單的“四舍五入”(Naive)算法在這些大規模模型上則表現出顯著的精度下降,特別是在激活被量化的情況下。
該研究團隊發現,Llama 3.1系列
原文鏈接:單卡搞定Llama 3.1 405B,讓大模型輕松瘦身!超強壓縮工具包來了
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...