91在线亚洲综合在线,伊人久久亚洲综合影院首页,中文字幕亚洲一区

FP8 低精度訓練：Transformer Engine 簡析

大模型時代最火AI芯片峰會來啦！！9月6-7日，由智猩猩聯(lián)合主辦的2024全球AI芯片峰會將在北京舉行。峰會設有數據中心AI芯片、智算集群技術論壇等7大板塊。目前...

閱讀原文

AIGC動態(tài)

1年前 (2024)

萬字綜述：全面梳理 FP8 訓練和推理技術

大模型時代最火AI芯片峰會來啦！！9月6-7日，由智猩猩聯(lián)合主辦的2024全球AI芯片峰會將在北京舉行。峰會設有數據中心AI芯片、智算集群技術論壇等7大板塊。目前...

閱讀原文

AIGC動態(tài)

1年前 (2024)

CPU反超NPU，llama.cpp生成速度翻5倍！LLM端側部署新范式T-MAC開源

新智元報道編輯：LRST 好困【新智元導讀】T-MAC是一種創(chuàng)新的基于查找表（LUT）的方法，專為在CPU上高效執(zhí)行低比特大型語言模型（LLMs）推理而設計，無需權重...

閱讀原文

AIGC動態(tài)

1年前 (2024)

手機跑大模型提速4-5倍！微軟亞研院開源新技術，有CPU就行

微軟亞洲研究院投稿量子位 | 公眾號 QbitAI有CPU就能跑大模型，性能甚至超過NPU/GPU！沒錯，為了優(yōu)化模型端側部署，微軟亞洲研究院提出了一種新技術——T-MAC...

閱讀原文

AIGC動態(tài)

1年前 (2024)

單卡搞定Llama 3.1 405B，讓大模型輕松瘦身！超強壓縮工具包來了

模型工具鏈團隊投稿量子位 | 公眾號 QbitAI單卡搞定Llama 3.1（405B），最新大模型壓縮工具來了！最近Llama-3.1登上開源頂峰，但其最強的405B版本模型900多...

閱讀原文

AIGC動態(tài)

1年前 (2024)

FBI-LLM低比特基礎大語言模型來了，首個完全從頭訓練的二值化語言模型

AIxiv專欄是機器之心發(fā)布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業(yè)的頂級實驗室，有效促進了學術...

閱讀原文

AIGC動態(tài)

1年前 (2024)

30B！每秒100tokens！這是AMD對AI PC的“幻想時間”

夕小瑤科技說原創(chuàng)作者 | 谷雨龍澤隨著AI的高速發(fā)展，從去年開始，掛在服務器的云端AI模型已經不能滿足技術發(fā)燒友的胃口了，AI PC應運而生。 AI PC就是內嵌個...

閱讀原文

AIGC動態(tài)

1年前 (2024)

英偉達又賺到了！FlashAttention3來了：H100利用率飆升至75%

機器之心報道編輯：陳陳、小舟740 TFLOPS！迄今最強 FlashAttention 來了。隨著大型語言模型（LLM）加速落地，擴展模型上下文窗口變得越來越重要。然而，Tra...

閱讀原文

AIGC動態(tài)

1年前 (2024)

H100利用率飆升至75%！英偉達親自下場FlashAttention三代升級，比標準注意力快16倍

明敏克雷西發(fā)自凹非寺量子位 | 公眾號 QbitAI大模型訓練推理神作，又更新了！主流大模型都在用的FlashAttention，剛剛升級第三代。時隔一年，FlashAtten...

閱讀原文

AIGC動態(tài)

1年前 (2024)

CVPR 2024 Highlight | 北航等發(fā)布「時間特征維護」：無需訓練，極致壓縮加速Diffusion

新智元報道編輯：LRST 好困【新智元導讀】拯救4bit擴散模型精度，僅需時間特征維護——以超低精度量化技術重塑圖像內容生成！近日，北航、莫納什、UT Austin聯(lián)...

閱讀原文

AIGC動態(tài)

1年前 (2024)

Intel入局大模型，燒錢搜索130億種網絡結構，讓LLaMa2瘦身30%

夕小瑤科技說原創(chuàng)作者 | 任同學大語言模型在多個領域大放異彩，但它們的高內存和計算成本限制了廣泛使用。神經架構搜索（NAS）能自動找到最優(yōu)模型架構，減少...

閱讀原文

AIGC動態(tài)

1年前 (2024)

清華“天眸芯”登Nature封面！全球首款類腦互補視覺芯片，施路平團隊最新成果

西風發(fā)自凹非寺量子位 | 公眾號 QbitAI清華類腦計算研究中心施路平團隊新成果，登上最新一期Nature封面。團隊研發(fā)出世界首款類腦互補視覺芯片——“天眸芯”。...

閱讀原文

AIGC動態(tài)

1年前 (2024)

字節(jié)開源大模型量化新思路，2-bit量化模型精度齊平fp16

AIxiv專欄是機器之心發(fā)布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業(yè)的頂級實驗室，有效促進了學術...

閱讀原文

AIGC動態(tài)

2年前 (2024)

所有生命分子一夜皆可AI預測！AlphaFold 3改變人類對生命的理解，全球科學家都能免費使用

夢晨明敏發(fā)自凹非寺量子位 | 公眾號 QbitAIAlphaFold 3再登Nature！這次重磅升級，不再僅限于蛋白質結構預測——可以以前所未有的精度預測所有生命分子的結...

閱讀原文

AIGC動態(tài)

2年前 (2024)

單卡跑Llama 70B快過雙卡，微軟硬生生把FP6搞到了A100里 | 開源

克雷西發(fā)自凹非寺量子位 | 公眾號 QbitAIFP8和更低的浮點數量化精度，不再是H100的“專利”了！老黃想讓大家用INT8/INT4，微軟DeepSpeed團隊在沒有英偉達官...

閱讀原文

AIGC動態(tài)

2年前 (2024)

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

標簽：精度

FP8 低精度訓練：Transformer Engine 簡析

萬字綜述：全面梳理 FP8 訓練和推理技術

CPU反超NPU，llama.cpp生成速度翻5倍！LLM端側部署新范式T-MAC開源

手機跑大模型提速4-5倍！微軟亞研院開源新技術，有CPU就行

單卡搞定Llama 3.1 405B，讓大模型輕松瘦身！超強壓縮工具包來了

FBI-LLM低比特基礎大語言模型來了，首個完全從頭訓練的二值化語言模型

30B！每秒100tokens！這是AMD對AI PC的“幻想時間”

英偉達又賺到了！FlashAttention3來了：H100利用率飆升至75%

H100利用率飆升至75%！英偉達親自下場FlashAttention三代升級，比標準注意力快16倍

CVPR 2024 Highlight | 北航等發(fā)布「時間特征維護」：無需訓練，極致壓縮加速Diffusion

Intel入局大模型，燒錢搜索130億種網絡結構，讓LLaMa2瘦身30%

清華“天眸芯”登Nature封面！全球首款類腦互補視覺芯片，施路平團隊最新成果

字節(jié)開源大模型量化新思路，2-bit量化模型精度齊平fp16

所有生命分子一夜皆可AI預測！AlphaFold 3改變人類對生命的理解，全球科學家都能免費使用

單卡跑Llama 70B快過雙卡，微軟硬生生把FP6搞到了A100里 | 開源