AIGC動態歡迎閱讀
原標題:字節開源大模型量化新思路,2-bit量化模型精度齊平fp16
關鍵字:字節跳動,模型,部分,精度,整數
文章來源:機器之心
內容字數:8643字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com隨著深度學語言模型的越來越火爆,大語言模型越做越大,使得其推理成本也水漲船高。模型量化,成為一個熱門的研究課題。
近日,字節跳動語音團隊推出一個全新的量化思路,拋棄傳統的量化范式,從數學優化的角度來對量化任務建模。文章放在了 arXiv,代碼已經開源,可以一鍵復現文中的所有結果:論文鏈接:https://arxiv.org/abs/2404.12759
項目鏈接:https://github.com/bytedance/decoupleQ
W2 算子:https://github.com/NVIDIA/TensorRT-LLM/pull/1568
1. 背景
大模型的迅速發展,使得推理成本越來越高。模型量化,作為一個降低推理成本的技術方案,得到了越來越多的
原文鏈接:字節開源大模型量化新思路,2-bit量化模型精度齊平fp16
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...