標簽:矩陣

不是大模型全局微調不起,只是LoRA更有性價比,教程已經準備好了

選自 Sebastian Raschka 博客機器之心編譯編輯:佳琪這是作者 Sebastian Raschka 經過數百次實驗得出的經驗,值得一讀。增加數據量和模型的參數量是公認的提...
閱讀原文

矩陣模擬!Transformer大模型3D可視化,GPT-3、Nano-GPT每一層清晰可見

新智元報道編輯:桃子 好困【新智元導讀】Transformer大模型工作原理究竟是什么樣的?一位軟件工程師打開了大模型的矩陣世界。黑客帝國中,「矩陣模擬」的世...
閱讀原文

清華提出 SoRA,參數量只有 LoRA 的 70%,表現更好!

夕小瑤科技說 原創作者 | 智商掉了一地、Python現在有很多關于大型語言模型(LLM)的研究,都圍繞著如何高效微調展開。微調是利用模型在大規模通用數據上學到...
閱讀原文

PyTorch團隊重寫「分割一切」模型,比原始實現快8倍

機器之心報道編輯:陳萍我們該如何優化 Meta 的「分割一切」模型,PyTorch 團隊撰寫的這篇博客由淺入深的幫你解答。從年初到現在,生成式 AI 發展迅猛。但很...
閱讀原文

全新近似注意力機制HyperAttention:對長上下文友好、LLM推理提速50%

機器之心報道編輯:大盤雞本文介紹了一項近似注意力機制新研究,耶魯大學、谷歌研究院等機構提出了 HyperAttention,使 ChatGLM2 在 32k 上下文長度上的推理...
閱讀原文

GPU推理提速4倍,256K上下文全球最長:無問芯穹刷新大模型優化記錄

機器之心報道機器之心編輯部想用大模型賺錢?這個實力強勁的新面孔決定先把推理成本打下來。大模型業務到底多燒錢?前段時間,華爾街日報的一則報道給出了參...
閱讀原文

比Transformer更好,無Attention、MLPs的BERT、GPT反而更強了

機器之心報道編輯:杜偉、澤南本文探索了 Monarch Mixer (M2) ,這是一種在序列長度和模型維度上都是次二次的新架構,并且在現代加速器上具有很高的硬件效率...
閱讀原文

OpenAI科學家最新大語言模型演講火了,洞見LLM成功的關鍵

機器之心報道選自 YouTube編輯:Panda從涌現和擴展律到指令微調和 RLHF,OpenAI 科學家帶你進入 LLM的世界。近日,OpenAI 研究科學家 Hyung Won Chung 在首爾...
閱讀原文

基于牛頓求根法,新算法實現并行訓練和評估RNN,帶來超10倍增速

機器之心報道編輯:Panda W人們普遍認為 RNN 是無法并行化的,因為其本質上的序列特性:其狀態依賴于前一狀態。這使得人們難以用長序列來訓練 RNN。近日,一...
閱讀原文

以3D視角洞悉矩陣乘法,這就是AI思考的樣子

選自PyTorch機器之心編譯如果能以 3D 方式展示矩陣乘法的執行過程,當年學習矩陣乘法時也就不會那么吃力了?,F如今,矩陣乘法已經成為機器學習模型的構建模塊...
閱讀原文

矩陣成真!Pytorch最新工具mm,3D可視化矩陣乘法、Transformer注意力

新智元報道編輯:桃子【新智元導讀】Pytorch團隊推出的最新3D可視化最新工具mm,能夠將矩陣乘法模擬世界還原。矩陣中的模擬世界,真的來了。矩陣乘法(matmul...
閱讀原文

“點兩下”就能開發一個AI應用!百度砸億元基金、千萬算力要搞插件生態

金磊 發自 武漢量子位 | 公眾號 QbitAI這年頭,要想開發一個AI應用,怎么搞?只需要簡單的“點擊”動作就可以了!例如你想開發一個AI作畫的App,只需要先點擊與...
閱讀原文

10人倆月搞出大模型!一年16篇頂會論文加持:市面上做得好的都沒有開源

衡宇 發自 凹非寺量子位 | 公眾號 QbitAI一家今年5月份成立在深圳的公司,團隊至今不到10人。他們要做的卻不是小事:挑戰AGI。底氣在哪?一看過往履歷,二看...
閱讀原文

對話共生矩陣張林:大模型商業化要「兩條腿」走路,開源落地優勢不大

信息大爆發時代,大模型是目前最好的壓縮機。作者 | 黃楠編輯 | 陳彩嫻縱觀人類信息時代發展的三個階段,可以以信息收集、信息傳播和信息壓縮來劃分,三者分...
閱讀原文

官方透露的我事科研成果中,有哪些機器人應用?

機器人大講堂 . 機器人大講堂是立德共創服務平臺旗下引領行業發展的新媒體平臺,已舉辦多種形式系列活動近百場,行業媒體矩陣垂直粉絲30萬余人;立德研究院承...
閱讀原文
1345