標(biāo)簽:矩陣

不是大模型全局微調(diào)不起,只是LoRA更有性?xún)r(jià)比,教程已經(jīng)準(zhǔn)備好了

選自 Sebastian Raschka 博客機(jī)器之心編譯編輯:佳琪這是作者 Sebastian Raschka 經(jīng)過(guò)數(shù)百次實(shí)驗(yàn)得出的經(jīng)驗(yàn),值得一讀。增加數(shù)據(jù)量和模型的參數(shù)量是公認(rèn)的提...
閱讀原文

矩陣模擬!Transformer大模型3D可視化,GPT-3、Nano-GPT每一層清晰可見(jiàn)

新智元報(bào)道編輯:桃子 好困【新智元導(dǎo)讀】Transformer大模型工作原理究竟是什么樣的?一位軟件工程師打開(kāi)了大模型的矩陣世界。黑客帝國(guó)中,「矩陣模擬」的世...
閱讀原文

清華提出 SoRA,參數(shù)量只有 LoRA 的 70%,表現(xiàn)更好!

夕小瑤科技說(shuō) 原創(chuàng)作者 | 智商掉了一地、Python現(xiàn)在有很多關(guān)于大型語(yǔ)言模型(LLM)的研究,都圍繞著如何高效微調(diào)展開(kāi)。微調(diào)是利用模型在大規(guī)模通用數(shù)據(jù)上學(xué)到...
閱讀原文

PyTorch團(tuán)隊(duì)重寫(xiě)「分割一切」模型,比原始實(shí)現(xiàn)快8倍

機(jī)器之心報(bào)道編輯:陳萍我們?cè)撊绾蝺?yōu)化 Meta 的「分割一切」模型,PyTorch 團(tuán)隊(duì)撰寫(xiě)的這篇博客由淺入深的幫你解答。從年初到現(xiàn)在,生成式 AI 發(fā)展迅猛。但很...
閱讀原文

全新近似注意力機(jī)制HyperAttention:對(duì)長(zhǎng)上下文友好、LLM推理提速50%

機(jī)器之心報(bào)道編輯:大盤(pán)雞本文介紹了一項(xiàng)近似注意力機(jī)制新研究,耶魯大學(xué)、谷歌研究院等機(jī)構(gòu)提出了 HyperAttention,使 ChatGLM2 在 32k 上下文長(zhǎng)度上的推理...
閱讀原文

GPU推理提速4倍,256K上下文全球最長(zhǎng):無(wú)問(wèn)芯穹刷新大模型優(yōu)化記錄

機(jī)器之心報(bào)道機(jī)器之心編輯部想用大模型賺錢(qián)?這個(gè)實(shí)力強(qiáng)勁的新面孔決定先把推理成本打下來(lái)。大模型業(yè)務(wù)到底多燒錢(qián)?前段時(shí)間,華爾街日?qǐng)?bào)的一則報(bào)道給出了參...
閱讀原文

比Transformer更好,無(wú)Attention、MLPs的BERT、GPT反而更強(qiáng)了

機(jī)器之心報(bào)道編輯:杜偉、澤南本文探索了 Monarch Mixer (M2) ,這是一種在序列長(zhǎng)度和模型維度上都是次二次的新架構(gòu),并且在現(xiàn)代加速器上具有很高的硬件效率...
閱讀原文

OpenAI科學(xué)家最新大語(yǔ)言模型演講火了,洞見(jiàn)LLM成功的關(guān)鍵

機(jī)器之心報(bào)道選自 YouTube編輯:Panda從涌現(xiàn)和擴(kuò)展律到指令微調(diào)和 RLHF,OpenAI 科學(xué)家?guī)氵M(jìn)入 LLM的世界。近日,OpenAI 研究科學(xué)家 Hyung Won Chung 在首爾...
閱讀原文

基于牛頓求根法,新算法實(shí)現(xiàn)并行訓(xùn)練和評(píng)估RNN,帶來(lái)超10倍增速

機(jī)器之心報(bào)道編輯:Panda W人們普遍認(rèn)為 RNN 是無(wú)法并行化的,因?yàn)槠浔举|(zhì)上的序列特性:其狀態(tài)依賴(lài)于前一狀態(tài)。這使得人們難以用長(zhǎng)序列來(lái)訓(xùn)練 RNN。近日,一...
閱讀原文

以3D視角洞悉矩陣乘法,這就是AI思考的樣子

選自PyTorch機(jī)器之心編譯如果能以 3D 方式展示矩陣乘法的執(zhí)行過(guò)程,當(dāng)年學(xué)習(xí)矩陣乘法時(shí)也就不會(huì)那么吃力了。現(xiàn)如今,矩陣乘法已經(jīng)成為機(jī)器學(xué)習(xí)模型的構(gòu)建模塊...
閱讀原文

矩陣成真!Pytorch最新工具mm,3D可視化矩陣乘法、Transformer注意力

新智元報(bào)道編輯:桃子【新智元導(dǎo)讀】Pytorch團(tuán)隊(duì)推出的最新3D可視化最新工具mm,能夠?qū)⒕仃嚦朔M世界還原。矩陣中的模擬世界,真的來(lái)了。矩陣乘法(matmul...
閱讀原文

“點(diǎn)兩下”就能開(kāi)發(fā)一個(gè)AI應(yīng)用!百度砸億元基金、千萬(wàn)算力要搞插件生態(tài)

金磊 發(fā)自 武漢量子位 | 公眾號(hào) QbitAI這年頭,要想開(kāi)發(fā)一個(gè)AI應(yīng)用,怎么搞?只需要簡(jiǎn)單的“點(diǎn)擊”動(dòng)作就可以了!例如你想開(kāi)發(fā)一個(gè)AI作畫(huà)的App,只需要先點(diǎn)擊與...
閱讀原文

10人倆月搞出大模型!一年16篇頂會(huì)論文加持:市面上做得好的都沒(méi)有開(kāi)源

衡宇 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI一家今年5月份成立在深圳的公司,團(tuán)隊(duì)至今不到10人。他們要做的卻不是小事:挑戰(zhàn)AGI。底氣在哪?一看過(guò)往履歷,二看...
閱讀原文

對(duì)話共生矩陣張林:大模型商業(yè)化要「兩條腿」走路,開(kāi)源落地優(yōu)勢(shì)不大

信息大爆發(fā)時(shí)代,大模型是目前最好的壓縮機(jī)。作者 | 黃楠編輯 | 陳彩嫻縱觀人類(lèi)信息時(shí)代發(fā)展的三個(gè)階段,可以以信息收集、信息傳播和信息壓縮來(lái)劃分,三者分...
閱讀原文

官方透露的我事科研成果中,有哪些機(jī)器人應(yīng)用?

機(jī)器人大講堂 . 機(jī)器人大講堂是立德共創(chuàng)服務(wù)平臺(tái)旗下引領(lǐng)行業(yè)發(fā)展的新媒體平臺(tái),已舉辦多種形式系列活動(dòng)近百場(chǎng),行業(yè)媒體矩陣垂直粉絲30萬(wàn)余人;立德研究院承...
閱讀原文
1345