標(biāo)簽:張量

斯坦福讓“GPU高速運(yùn)轉(zhuǎn)”的新工具火了,比FlashAttention2更快

西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIAI算力資源越發(fā)緊張的當(dāng)下,斯坦福新研究將GPU運(yùn)行效率再提升一波—— 內(nèi)核只有100行代碼,讓H100比使用FlashAttention...
閱讀原文

再戰(zhàn)Transformer!原作者帶隊(duì)的Mamba 2來(lái)了,新架構(gòu)訓(xùn)練效率大幅提升

機(jī)器之心報(bào)道 機(jī)器之心編輯部自 2017 年被提出以來(lái),Transformer 已經(jīng)成為 AI 大模型的主流架構(gòu),一直穩(wěn)居語(yǔ)言建模方面 C 位。 但隨著模型規(guī)模的擴(kuò)展和需要處...
閱讀原文

只需百行代碼,讓H100提速30%,斯坦福開源全新AI加速框架

機(jī)器之心報(bào)道 機(jī)器之心編輯部提高 GPU 利用率,就是這么簡(jiǎn)單。AI 的快速發(fā)展,伴隨而來(lái)的是大計(jì)算量。這就自然而然的引出了一個(gè)問題:如何減少 AI 對(duì)計(jì)算的需...
閱讀原文

熱歸熱,Groq離取代英偉達(dá)GPU有多遠(yuǎn)?

來(lái)源:節(jié)選自2024 年 Week08業(yè)內(nèi)通訊2024 年 4 月 20日,即 Meta 開源 Llama 3 的隔天,初創(chuàng)公司Groq 宣布其 LPU 推理引擎已部署 Llama 3 的 8B 和 70B 版本...
閱讀原文

比 GPT-4 快 18 倍、自研芯片比英偉達(dá) GPU 快 10 倍的 Groq,能否撼動(dòng)英偉達(dá)?

這兩天國(guó)內(nèi)外人工智能圈子都在熱議 Groq:這個(gè)硅谷公司的產(chǎn)品基于自研芯片可以做到在大模型推理時(shí)每秒處理將近 500 個(gè) token。 500 個(gè) token 什么概念,大概...
閱讀原文

如何防止模型被?基于TVM的端上模型部署加密方案

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自云鼎實(shí)驗(yàn)室 2023年在AI的發(fā)展史上一定是濃墨重彩的一筆,在這一年里出現(xiàn)了百模大戰(zhàn)、全民“煉丹”的場(chǎng)面,圍繞著各種模型的訓(xùn)練技術(shù)和算力...
閱讀原文

吞吐量提升5倍,聯(lián)合設(shè)計(jì)后端系統(tǒng)和前端語(yǔ)言的LLM接口來(lái)了

機(jī)器之心報(bào)道 機(jī)器之心編輯部大型語(yǔ)言模型 (LLM) 越來(lái)越多地用于需要多個(gè)鏈?zhǔn)缴烧{(diào)用、高級(jí) prompt 技術(shù)、控制流以及與外部環(huán)境交互的復(fù)雜任務(wù)。然而,用于...
閱讀原文

LLaMA開源大模型源碼分析!

01LLaMA-Model在transformers倉(cāng)庫(kù)中可以看到llama的源碼,首先是LlamaModel類,繼承自PreTrainedModel,這個(gè)類是所有模型的基類,包含了一些通用的方法,比如...
閱讀原文

顯存瓶頸被打破!大模型訓(xùn)練的黑科技來(lái)了,帶寬不再制約大模型訓(xùn)練

夕小瑤科技說(shuō) 原創(chuàng)作者 | 賣萌醬 大家好,我是賣萌醬。 來(lái)一個(gè)快問快答,如何使用性能有限的GPU卡從頭訓(xùn)練出一個(gè)ChatGPT? 在目前,隨著模型參數(shù)量不斷暴漲,...
閱讀原文

戴瓊海院士:開源后在 AlpacaEval 直追 GPT4,零一靠技術(shù)如何重建生態(tài)信心

來(lái)源:AI科技大本營(yíng)斯坦福大學(xué)研發(fā)的大語(yǔ)言模型評(píng)測(cè) AlpacaEval Leaderboard 備受業(yè)內(nèi)認(rèn)可,在 2023 年 12 月 7 日 更新的排行榜中,Yi-34B-Chat 以 94.08% ...
閱讀原文

不到1000行代碼,PyTorch團(tuán)隊(duì)讓Llama 7B提速10倍

機(jī)器之心報(bào)道編輯:陳萍PyTorch 團(tuán)隊(duì)親自教你如何加速大模型推理。在過去的一年里,生成式 AI 發(fā)展迅猛,在這當(dāng)中,文本生成一直是一個(gè)特別受歡迎的領(lǐng)域,很...
閱讀原文

PyTorch造大模型“加速包”,不到1000行代碼提速10倍!英偉達(dá)科學(xué)家:minGPT以來(lái)最好的教程式repo之一

西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIPyTorch團(tuán)隊(duì)讓大模型推理速度加快了10倍。且只用了不到1000行的純?cè)鶳yTorch代碼!項(xiàng)目名為GPT-fast,加速效果觀感...
閱讀原文

PyTorch團(tuán)隊(duì)重寫「分割一切」模型,比原始實(shí)現(xiàn)快8倍

機(jī)器之心報(bào)道編輯:陳萍我們?cè)撊绾蝺?yōu)化 Meta 的「分割一切」模型,PyTorch 團(tuán)隊(duì)撰寫的這篇博客由淺入深的幫你解答。從年初到現(xiàn)在,生成式 AI 發(fā)展迅猛。但很...
閱讀原文

S-LoRA:一個(gè)GPU運(yùn)行數(shù)千大模型成為可能

機(jī)器之心報(bào)道編輯:蛋醬一般來(lái)說(shuō),大語(yǔ)言模型的部署都會(huì)采用「預(yù)訓(xùn)練 — 然后微調(diào)」的模式。但是,當(dāng)針對(duì)眾多任務(wù)(如個(gè)性化助手)對(duì) base 模型進(jìn)行微調(diào)時(shí),訓(xùn)...
閱讀原文

李開復(fù)旗下340億參數(shù)開源大模型被指“套殼LLaMA”,最新回應(yīng)來(lái)了!

整理 | 凌敏、核子可樂 有網(wǎng)友在 Twitter 上評(píng)價(jià)道:“這就是中國(guó)大模型的現(xiàn)狀?”李開復(fù)的 Yi-34B被指是對(duì) LLaMA 的重構(gòu)近日,國(guó)外開發(fā)者 ehartford 在開源大...
閱讀原文
123