AIGC動態歡迎閱讀
原標題:量化大模型退化嚴重?ETH北航字節推出LoRA新范式 | ICML 2024
關鍵字:信息,字節跳動,模型,權重,表示
文章來源:量子位
內容字數:0字
內容摘要:
QHT 投稿量子位 | 公眾號 QbitAI大模型應用開卷,連一向保守的蘋果,都已釋放出發展端側大模型的信號。
問題是,大語言模型(LLM)卓越的表現取決于“力大磚飛”,如何在資源有限的環境中部署大模型并保障性能,仍然頗具挑戰。
以對大模型進行量化+LoRA的路線為例,有研究表明,現有方導致量化的LLM嚴重退化,甚至無法從LoRA微調中受益。
為了解決這一問題,來自蘇黎世聯邦理工學院、北京航空航天大學和字節跳動的研究人員,最新提出了一種信息引導的量化后LLM微調新算法IR-QLoRA。論文已入選ICML 2024 Oral論文。
論文介紹,IR-QLoRA能有效改善量化導致的大模型性能退化。在LLaMA和LLaMA 2系列中,用該方法微調的2位模型,相比于16位模型僅有0.9%的精度差異。
△IR-QLoRA框架圖該方法的核心思想,是通過信息保留來使LoRA微調量化的大語言模型實現精度提升。
包含從統一信息角度衍生的兩種技術:信息校準量化和信息彈性連接。
信息校準量化LLM的量化權重被期望反映原始對應方所攜帶的信息,但比特寬度的減小嚴重限制了表示能力。從信息的角度來看,量化LLM和
原文鏈接:量化大模型退化嚴重?ETH北航字節推出LoRA新范式 | ICML 2024
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...