Scaling Laws終結,量化無用,AI大佬都在審視這篇論文

AIGC動態(tài)歡迎閱讀
原標題:Scaling Laws終結,量化無用,AI大佬都在審視這篇論文
關鍵字:精度,模型,權重,數(shù)據(jù),定律
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
機器之心報道
作者:澤南、小舟研究表明,你訓練的 token 越多,你需要的精度就越高。最近幾天,AI 社區(qū)都在討論同一篇論文。
UCSD 助理教授 Dan Fu 說它指明了大模型量化的方向。CMU 教授 Tim Dettmers 則直接說:它是很長一段時間以來最重要的一篇論文。OpenAI 創(chuàng)始成員、特斯拉前 AI 高級總監(jiān) Andrej Karpathy 也轉發(fā)了他的帖子。Tim Dettmers 表示,可以說,人工智能的大部分進步都來自計算能力的提升,而(在最近)這主要依賴于低精度路線的加速(32- > 16 – > 8 位)。現(xiàn)在看來,這一趨勢即將結束。再加上摩爾定律的物理限制,大模型的大規(guī)模擴展可以說要到頭了。
例如,英偉達最新的 AI 計算卡 Blackwell 將擁有出色的 8 位能力,并在硬件層面實現(xiàn)逐塊量化。這將使 8 位訓練變得像從 FP16 切換到 BF16 一樣簡單。然而,正如我們從新論文中看到的那樣,對于很多大模型的訓練來說,8 位是不夠的。
與其他模型相比,Llama 405B 沒有得到太多應用的主要原因是它體量太大了,運行 405B 模型進行推理非常麻煩。
原文鏈接:Scaling Laws終結,量化無用,AI大佬都在審視這篇論文
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...

粵公網(wǎng)安備 44011502001135號