港大北航等1bit大模型引熱議,IEEE刊物評(píng)“解決AI能源需求”!作者親自解讀在此
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:港大北航等1bit大模型引熱議,IEEE刊物評(píng)“解決AI能源需求”!作者親自解讀在此
關(guān)鍵字:權(quán)重,解讀,報(bào)告,模型,研究人員
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
BiLLM團(tuán)隊(duì) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI極限量化,把每個(gè)參數(shù)占用空間壓縮到1.1bit!
IEEE Spectrum專欄,一種名為BiLLM的訓(xùn)練后量化(PTQ)方法火了。
通俗來講,隨著LLM參數(shù)規(guī)模越來越大,模型計(jì)算的內(nèi)存和資源也面臨著更大的挑戰(zhàn)。如何把模型變得小巧經(jīng)濟(jì)實(shí)惠,能塞進(jìn)手機(jī)等設(shè)備中?
BiLLM解決的正是這樣的一個(gè)問題。它使用1bit來近似網(wǎng)絡(luò)中的大多數(shù)參數(shù),使用2bit來表示一些對(duì)性能最有影響的權(quán)重。
實(shí)驗(yàn)測(cè)試中,研究人員對(duì)OPT模型、Llama系列進(jìn)行了二值化。
在OPT模型家族上,BiLLM以1.1bit的平均權(quán)重大小實(shí)現(xiàn)了目前最極限的LLM訓(xùn)練后壓縮;在Llama系列模型上,BiLLM在1.08bit下的表現(xiàn)甚至超過了使用全精度的OPT-66B模型。
效率方面,BiLLM能夠在單個(gè)GPU上半小時(shí)內(nèi)完成7B LLM的二值化。
BiLLM發(fā)布當(dāng)天,便引發(fā)了網(wǎng)友對(duì)大模型優(yōu)化的熱議,有網(wǎng)友就表示:
量化不是沒有代價(jià)。Llama3模型的量化效果比Llama2模型要差,量化過程中的質(zhì)量損失更大。
直覺是,一個(gè)訓(xùn)練不足的模型受到量化的影響較小,因?yàn)槠溆?xùn)練過
原文鏈接:港大北航等1bit大模型引熱議,IEEE刊物評(píng)“解決AI能源需求”!作者親自解讀在此
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破