微軟、國科大開啟1Bit時代:大模型轉(zhuǎn)三進(jìn)制,速度快4倍能耗降至1/41
AIGC動態(tài)歡迎閱讀
原標(biāo)題:微軟、國科大開啟1Bit時代:大模型轉(zhuǎn)三進(jìn)制,速度快4倍能耗降至1/41
關(guān)鍵字:模型,報告,內(nèi)存,性能,基線
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6222字
內(nèi)容摘要:
機(jī)器之心報道
機(jī)器之心編輯部性的提升來了。把大模型的權(quán)重統(tǒng)統(tǒng)改成三元表示,速度和效率的提升讓人害怕。
今天凌晨,由微軟、國科大等機(jī)構(gòu)提交的一篇論文在 AI 圈里被人們爭相轉(zhuǎn)閱。該研究提出了一種 1-bit 大模型,實現(xiàn)效果讓人只想說兩個字:震驚。如果該論文的方法可以廣泛使用,這可能是生成式 AI 的新時代。
對此,已經(jīng)有人在暢想 1-bit 大模型的適用場景,看起來很適合物聯(lián)網(wǎng),這在以前是不可想象的。人們還發(fā)現(xiàn),這個提升速度不是線性的 —— 而是,模型越大,這么做帶來的提升就越大。還有這種好事?看起來英偉達(dá)要掂量掂量了。
近年來,大語言模型(LLM)的參數(shù)規(guī)模和能力快速增長,既在廣泛的自然語言處理任務(wù)中表現(xiàn)出了卓越的性能,也為部署帶來了挑戰(zhàn),并引發(fā)人們擔(dān)憂高能耗會對環(huán)境和經(jīng)濟(jì)造成影響。
因此,使用后訓(xùn)練(post-training)量化技術(shù)來創(chuàng)建低 bit 推理模型成為上述問題的解決方案。這類技術(shù)可以降低權(quán)重和激活函數(shù)的精度,顯著降低 LLM 的內(nèi)存和計算需求。目前的發(fā)展趨勢是從 16 bits 轉(zhuǎn)向更低的 bit,比如 4 bits。然而,雖然這類量化技術(shù)在 LLM 中廣泛使用,
原文鏈接:微軟、國科大開啟1Bit時代:大模型轉(zhuǎn)三進(jìn)制,速度快4倍能耗降至1/41
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺