AIGC動態歡迎閱讀
原標題:Scaling Laws終結,量化無用,AI大佬都在審視這篇論文
關鍵字:精度,模型,權重,數據,定律
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
作者:澤南、小舟研究表明,你訓練的 token 越多,你需要的精度就越高。最近幾天,AI 社區都在討論同一篇論文。
UCSD 助理教授 Dan Fu 說它指明了大模型量化的方向。CMU 教授 Tim Dettmers 則直接說:它是很長一段時間以來最重要的一篇論文。OpenAI 創始成員、特斯拉前 AI 高級總監 Andrej Karpathy 也轉發了他的帖子。Tim Dettmers 表示,可以說,人工智能的大部分進步都來自計算能力的提升,而(在最近)這主要依賴于低精度路線的加速(32- > 16 – > 8 位)。現在看來,這一趨勢即將結束。再加上摩爾定律的物理限制,大模型的大規模擴展可以說要到頭了。
例如,英偉達最新的 AI 計算卡 Blackwell 將擁有出色的 8 位能力,并在硬件層面實現逐塊量化。這將使 8 位訓練變得像從 FP16 切換到 BF16 一樣簡單。然而,正如我們從新論文中看到的那樣,對于很多大模型的訓練來說,8 位是不夠的。
與其他模型相比,Llama 405B 沒有得到太多應用的主要原因是它體量太大了,運行 405B 模型進行推理非常麻煩。
原文鏈接:Scaling Laws終結,量化無用,AI大佬都在審視這篇論文
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...