量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024

AIGC動態(tài)歡迎閱讀
原標(biāo)題:量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024
關(guān)鍵字:信息,字節(jié)跳動,模型,權(quán)重,表示
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
QHT 投稿量子位 | 公眾號 QbitAI大模型應(yīng)用開卷,連一向保守的蘋果,都已釋放出發(fā)展端側(cè)大模型的信號。
問題是,大語言模型(LLM)卓越的表現(xiàn)取決于“力大磚飛”,如何在資源有限的環(huán)境中部署大模型并保障性能,仍然頗具挑戰(zhàn)。
以對大模型進(jìn)行量化+LoRA的路線為例,有研究表明,現(xiàn)有方導(dǎo)致量化的LLM嚴(yán)重退化,甚至無法從LoRA微調(diào)中受益。
為了解決這一問題,來自蘇黎世聯(lián)邦理工學(xué)院、北京航空航天大學(xué)和字節(jié)跳動的研究人員,最新提出了一種信息引導(dǎo)的量化后LLM微調(diào)新算法IR-QLoRA。論文已入選ICML 2024 Oral論文。
論文介紹,IR-QLoRA能有效改善量化導(dǎo)致的大模型性能退化。在LLaMA和LLaMA 2系列中,用該方法微調(diào)的2位模型,相比于16位模型僅有0.9%的精度差異。
△IR-QLoRA框架圖該方法的核心思想,是通過信息保留來使LoRA微調(diào)量化的大語言模型實(shí)現(xiàn)精度提升。
包含從統(tǒng)一信息角度衍生的兩種技術(shù):信息校準(zhǔn)量化和信息彈性連接。
信息校準(zhǔn)量化LLM的量化權(quán)重被期望反映原始對應(yīng)方所攜帶的信息,但比特寬度的減小嚴(yán)重限制了表示能力。從信息的角度來看,量化LLM和
原文鏈接:量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號