微軟、國科大開啟1Bit時(shí)代：大模型轉(zhuǎn)三進(jìn)制，速度快4倍能耗降至1/41

AIGC動態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：微軟、國科大開啟1Bit時(shí)代：大模型轉(zhuǎn)三進(jìn)制，速度快4倍能耗降至1/41
關(guān)鍵字：模型,報(bào)告,內(nèi)存,性能,基線
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：6222字

內(nèi)容摘要：

機(jī)器之心報(bào)道
機(jī)器之心編輯部性的提升來了。把大模型的權(quán)重統(tǒng)統(tǒng)改成三元表示，速度和效率的提升讓人害怕。
今天凌晨，由微軟、國科大等機(jī)構(gòu)提交的一篇論文在 AI 圈里被人們爭相轉(zhuǎn)閱。該研究提出了一種 1-bit 大模型，實(shí)現(xiàn)效果讓人只想說兩個(gè)字：震驚。如果該論文的方法可以廣泛使用，這可能是生成式 AI 的新時(shí)代。
對此，已經(jīng)有人在暢想 1-bit 大模型的適用場景，看起來很適合物聯(lián)網(wǎng)，這在以前是不可想象的。人們還發(fā)現(xiàn)，這個(gè)提升速度不是線性的 —— 而是，模型越大，這么做帶來的提升就越大。還有這種好事？看起來英偉達(dá)要掂量掂量了。
近年來，大語言模型（LLM）的參數(shù)規(guī)模和能力快速增長，既在廣泛的自然語言處理任務(wù)中表現(xiàn)出了卓越的性能，也為部署帶來了挑戰(zhàn)，并引發(fā)人們擔(dān)憂高能耗會對環(huán)境和經(jīng)濟(jì)造成影響。
因此，使用后訓(xùn)練（post-training）量化技術(shù)來創(chuàng)建低 bit 推理模型成為上述問題的解決方案。這類技術(shù)可以降低權(quán)重和激活函數(shù)的精度，顯著降低 LLM 的內(nèi)存和計(jì)算需求。目前的發(fā)展趨勢是從 16 bits 轉(zhuǎn)向更低的 bit，比如 4 bits。然而，雖然這類量化技術(shù)在 LLM 中廣泛使用，

原文鏈接：微軟、國科大開啟1Bit時(shí)代：大模型轉(zhuǎn)三進(jìn)制，速度快4倍能耗降至1/41