標(biāo)簽:精度

FP8 低精度訓(xùn)練:Transformer Engine 簡析

大模型時代最火AI芯片峰會來啦!!9月6-7日,由智猩猩聯(lián)合主辦的2024全球AI芯片峰會將在北京舉行。峰會設(shè)有數(shù)據(jù)中心AI芯片、智算集群技術(shù)論壇等7大板塊。目前...
閱讀原文

萬字綜述:全面梳理 FP8 訓(xùn)練和推理技術(shù)

大模型時代最火AI芯片峰會來啦!!9月6-7日,由智猩猩聯(lián)合主辦的2024全球AI芯片峰會將在北京舉行。峰會設(shè)有數(shù)據(jù)中心AI芯片、智算集群技術(shù)論壇等7大板塊。目前...
閱讀原文

CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側(cè)部署新范式T-MAC開源

新智元報道編輯:LRST 好困 【新智元導(dǎo)讀】T-MAC是一種創(chuàng)新的基于查找表(LUT)的方法,專為在CPU上高效執(zhí)行低比特大型語言模型(LLMs)推理而設(shè)計,無需權(quán)重...
閱讀原文

手機跑大模型提速4-5倍!微軟亞研院開源新技術(shù),有CPU就行

微軟亞洲研究院 投稿量子位 | 公眾號 QbitAI有CPU就能跑大模型,性能甚至超過NPU/GPU! 沒錯,為了優(yōu)化模型端側(cè)部署,微軟亞洲研究院提出了一種新技術(shù)——T-MAC...
閱讀原文

單卡搞定Llama 3.1 405B,讓大模型輕松瘦身!超強壓縮工具包來了

模型工具鏈團(tuán)隊 投稿量子位 | 公眾號 QbitAI單卡搞定Llama 3.1(405B),最新大模型壓縮工具來了! 最近Llama-3.1登上開源頂峰,但其最強的405B版本模型900多...
閱讀原文

FBI-LLM低比特基礎(chǔ)大語言模型來了,首個完全從頭訓(xùn)練的二值化語言模型

AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進(jìn)了學(xué)術(shù)...
閱讀原文

30B!每秒100tokens!這是AMD對AI PC的“幻想時間”

夕小瑤科技說 原創(chuàng)作者 | 谷雨龍澤隨著AI的高速發(fā)展,從去年開始,掛在服務(wù)器的云端AI模型已經(jīng)不能滿足技術(shù)發(fā)燒友的胃口了,AI PC應(yīng)運而生。 AI PC就是內(nèi)嵌個...
閱讀原文

英偉達(dá)又賺到了!FlashAttention3來了:H100利用率飆升至75%

機器之心報道 編輯:陳陳、小舟740 TFLOPS!迄今最強 FlashAttention 來了。隨著大型語言模型(LLM)加速落地,擴(kuò)展模型上下文窗口變得越來越重要。然而,Tra...
閱讀原文

H100利用率飆升至75%!英偉達(dá)親自下場FlashAttention三代升級,比標(biāo)準(zhǔn)注意力快16倍

明敏 克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI大模型訓(xùn)練推理神作,又更新了! 主流大模型都在用的FlashAttention,剛剛升級第三代。 時隔一年,F(xiàn)lashAtten...
閱讀原文

CVPR 2024 Highlight | 北航等發(fā)布「時間特征維護(hù)」:無需訓(xùn)練,極致壓縮加速Diffusion

新智元報道編輯:LRST 好困 【新智元導(dǎo)讀】拯救4bit擴(kuò)散模型精度,僅需時間特征維護(hù)——以超低精度量化技術(shù)重塑圖像內(nèi)容生成!近日,北航、莫納什、UT Austin聯(lián)...
閱讀原文

Intel入局大模型,燒錢搜索130億種網(wǎng)絡(luò)結(jié)構(gòu),讓LLaMa2瘦身30%

夕小瑤科技說 原創(chuàng)作者 | 任同學(xué)大語言模型在多個領(lǐng)域大放異彩,但它們的高內(nèi)存和計算成本限制了廣泛使用。神經(jīng)架構(gòu)搜索(NAS)能自動找到最優(yōu)模型架構(gòu),減少...
閱讀原文

清華“天眸芯”登Nature封面!全球首款類腦互補視覺芯片,施路平團(tuán)隊最新成果

西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號 QbitAI清華類腦計算研究中心施路平團(tuán)隊新成果,登上最新一期Nature封面。 團(tuán)隊研發(fā)出世界首款類腦互補視覺芯片——“天眸芯”。...
閱讀原文

字節(jié)開源大模型量化新思路,2-bit量化模型精度齊平fp16

AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進(jìn)了學(xué)術(shù)...
閱讀原文

所有生命分子一夜皆可AI預(yù)測!AlphaFold 3改變?nèi)祟悓ι睦斫猓蚩茖W(xué)家都能免費使用

夢晨 明敏 發(fā)自 凹非寺量子位 | 公眾號 QbitAIAlphaFold 3再登Nature! 這次重磅升級,不再僅限于蛋白質(zhì)結(jié)構(gòu)預(yù)測——可以以前所未有的精度預(yù)測所有生命分子的結(jié)...
閱讀原文

單卡跑Llama 70B快過雙卡,微軟硬生生把FP6搞到了A100里 | 開源

克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAIFP8和更低的浮點數(shù)量化精度,不再是H100的“專利”了! 老黃想讓大家用INT8/INT4,微軟DeepSpeed團(tuán)隊在沒有英偉達(dá)官...
閱讀原文
123