微軟6頁(yè)論文爆火:三進(jìn)制LLM,真香!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:微軟6頁(yè)論文爆火:三進(jìn)制LLM,真香!
關(guān)鍵字:騰訊,知乎,模型,參數(shù),權(quán)重
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):4590字
內(nèi)容摘要:
金磊 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI現(xiàn)在,大語(yǔ)言模型(LLM)迎來(lái)了“1-bit時(shí)代”。
這就是由微軟和中國(guó)中科院大學(xué)在最新一項(xiàng)研究中所提出的結(jié)論——
所有的LLM,都將是1.58 bit的。
具體而言,這項(xiàng)研究提出的方法叫做BitNet b1.58,可以說(shuō)是從大語(yǔ)言模型“根兒”上的參數(shù)下手。
將傳統(tǒng)以16位浮點(diǎn)數(shù)(如FP16或BF16)形式的存儲(chǔ),統(tǒng)統(tǒng)變成了三進(jìn)制,也就是{-1, 0, 1}。
值得注意的是,這里的“1.58 bit”并不是指每個(gè)參數(shù)占用1.58字節(jié)的存儲(chǔ)空間,而是指每個(gè)參數(shù)可以用1.58位的信息來(lái)表示。
在如此轉(zhuǎn)換之后,矩陣中的計(jì)算就只會(huì)涉及到整數(shù)的加法,因此會(huì)讓大模型在保持一定精度的同時(shí),顯著減少所需的存儲(chǔ)空間和計(jì)算資源。
例如BitNet b1.58在3B模型大小時(shí)與Llama做比較,速度提高了2.71倍的同時(shí),GPU內(nèi)存使用幾乎僅是原先的四分之一。
而且當(dāng)模型的規(guī)模越大時(shí)(例如70B),速度上的提升和內(nèi)存上的節(jié)省就會(huì)更加顯著!
這種顛覆傳統(tǒng)的思路著實(shí)是讓網(wǎng)友們眼前一亮,論文在X上也是受到了高度的關(guān)注:
網(wǎng)友們驚嘆“改變游戲規(guī)則”的同時(shí),還玩起了谷
原文鏈接:微軟6頁(yè)論文爆火:三進(jìn)制LLM,真香!
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破