標簽:張量

斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快

西風 發自 凹非寺量子位 | 公眾號 QbitAIAI算力資源越發緊張的當下,斯坦福新研究將GPU運行效率再提升一波—— 內核只有100行代碼,讓H100比使用FlashAttention...
閱讀原文

再戰Transformer!原作者帶隊的Mamba 2來了,新架構訓練效率大幅提升

機器之心報道 機器之心編輯部自 2017 年被提出以來,Transformer 已經成為 AI 大模型的主流架構,一直穩居語言建模方面 C 位。 但隨著模型規模的擴展和需要處...
閱讀原文

只需百行代碼,讓H100提速30%,斯坦福開源全新AI加速框架

機器之心報道 機器之心編輯部提高 GPU 利用率,就是這么簡單。AI 的快速發展,伴隨而來的是大計算量。這就自然而然的引出了一個問題:如何減少 AI 對計算的需...
閱讀原文

熱歸熱,Groq離取代英偉達GPU有多遠?

來源:節選自2024 年 Week08業內通訊2024 年 4 月 20日,即 Meta 開源 Llama 3 的隔天,初創公司Groq 宣布其 LPU 推理引擎已部署 Llama 3 的 8B 和 70B 版本...
閱讀原文

比 GPT-4 快 18 倍、自研芯片比英偉達 GPU 快 10 倍的 Groq,能否撼動英偉達?

這兩天國內外人工智能圈子都在熱議 Groq:這個硅谷公司的產品基于自研芯片可以做到在大模型推理時每秒處理將近 500 個 token。 500 個 token 什么概念,大概...
閱讀原文

如何防止模型被?基于TVM的端上模型部署加密方案

大數據文摘受權轉載自云鼎實驗室 2023年在AI的發展史上一定是濃墨重彩的一筆,在這一年里出現了百模大戰、全民“煉丹”的場面,圍繞著各種模型的訓練技術和算力...
閱讀原文

吞吐量提升5倍,聯合設計后端系統和前端語言的LLM接口來了

機器之心報道 機器之心編輯部大型語言模型 (LLM) 越來越多地用于需要多個鏈式生成調用、高級 prompt 技術、控制流以及與外部環境交互的復雜任務。然而,用于...
閱讀原文

LLaMA開源大模型源碼分析!

01LLaMA-Model在transformers倉庫中可以看到llama的源碼,首先是LlamaModel類,繼承自PreTrainedModel,這個類是所有模型的基類,包含了一些通用的方法,比如...
閱讀原文

顯存瓶頸被打破!大模型訓練的黑科技來了,帶寬不再制約大模型訓練

夕小瑤科技說 原創作者 | 賣萌醬 大家好,我是賣萌醬。 來一個快問快答,如何使用性能有限的GPU卡從頭訓練出一個ChatGPT? 在目前,隨著模型參數量不斷暴漲,...
閱讀原文

戴瓊海院士:開源后在 AlpacaEval 直追 GPT4,零一靠技術如何重建生態信心

來源:AI科技大本營斯坦福大學研發的大語言模型評測 AlpacaEval Leaderboard 備受業內認可,在 2023 年 12 月 7 日 更新的排行榜中,Yi-34B-Chat 以 94.08% ...
閱讀原文

不到1000行代碼,PyTorch團隊讓Llama 7B提速10倍

機器之心報道編輯:陳萍PyTorch 團隊親自教你如何加速大模型推理。在過去的一年里,生成式 AI 發展迅猛,在這當中,文本生成一直是一個特別受歡迎的領域,很...
閱讀原文

PyTorch造大模型“加速包”,不到1000行代碼提速10倍!英偉達科學家:minGPT以來最好的教程式repo之一

西風 發自 凹非寺量子位 | 公眾號 QbitAIPyTorch團隊讓大模型推理速度加快了10倍。且只用了不到1000行的純原生PyTorch代碼!項目名為GPT-fast,加速效果觀感...
閱讀原文

PyTorch團隊重寫「分割一切」模型,比原始實現快8倍

機器之心報道編輯:陳萍我們該如何優化 Meta 的「分割一切」模型,PyTorch 團隊撰寫的這篇博客由淺入深的幫你解答。從年初到現在,生成式 AI 發展迅猛。但很...
閱讀原文

S-LoRA:一個GPU運行數千大模型成為可能

機器之心報道編輯:蛋醬一般來說,大語言模型的部署都會采用「預訓練 — 然后微調」的模式。但是,當針對眾多任務(如個性化助手)對 base 模型進行微調時,訓...
閱讀原文

李開復旗下340億參數開源大模型被指“套殼LLaMA”,最新回應來了!

整理 | 凌敏、核子可樂 有網友在 Twitter 上評價道:“這就是中國大模型的現狀?”李開復的 Yi-34B被指是對 LLaMA 的重構近日,國外開發者 ehartford 在開源大...
閱讀原文
123