標簽:梯度
WPS接入DeepSeek,秒變辦公神器!
WPS 大家經常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓WPS秒變辦公神器。 DeepSeek API申請地址:http:/...
AI賺錢副業~AI生成影視解說,半個月漲粉變現3.5W+!
這兩年大家都在感嘆生活不易,然而我想說的是,機會還是有的,但問題不在于有沒有,而在于你是否能夠認準機會,然后抓住它。 接觸過很多咨詢項目的人,發現...
專家模型不要專家并行!微軟開源MoE新路徑
新智元報道編輯:alan 【新智元導讀】近日,來自微軟的研究人員開源了使用全新方法訓練的MoE大模型,不走尋常路,且編碼和數學表現出色。繼Phi家族之后,微軟...
深入淺出Batch Size,對模型訓練的影響分析
開講預告11月7日晚7點,上海 AI Lab OpenGVLab 博士后研究員羅根,將以《Mono-InternVL: 突破原生多模態大模型性能瓶頸》為主題進行直播講解,歡迎掃碼報名~...
低內存占用也能實現滿血訓練?!北理北大港中文MMLab推出Fira訓練框架
Fira團隊 投稿量子位 | 公眾號 QbitAI內存占用小,訓練表現也要好……大模型訓練成功實現二者兼得。 來自北理、北大和港中文MMLab的研究團隊提出了一種滿足低秩...
圖解大模型訓練之:數據并行上篇(DP, DDP與ZeRO)
GTIC 2024中國AI PC創新峰會將于10月11日,在2024上海國際消費電子展TechG同期舉辦。聯想集團首席研究員顏毅強、榮耀終端有限公司PC產品研發系統部部長席迎軍...
希望這篇是最清晰好懂的 Layernorm 原理解析
Hello,大家好,我是 JioNLP。 這一篇文章主要講講 Layer Normalization。在本文里,Layer Normalization 統一都被稱為 layernorm。字面意思就是層歸一化,也...
30行代碼,500萬長文本推理提速8倍!「樹注意力」讓GPU越多省的越多
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI跨GPU的注意力并行,最高提速8倍,支持512萬序列長度推理。 環注意力(Ring Attention)后繼者——樹注意力(Tree Atte...
清華光學AI登Nature!物理神經網絡,反向傳播不需要了
一水 發自 凹非寺量子位 | 公眾號 QbitAI用光訓練神經網絡,清華成果最新登上了Nature! 無法應用反向傳播算法怎么辦? 他們提出了一種全前向模式(Fully For...
清華研究登Nature,首創全前向智能光計算訓練架構,戴瓊海、方璐領銜
機器之心報道 機器之心編輯部在剛剛過去的一天,來自清華的光電智能技術交叉創新團隊突破智能光計算訓練難題,相關論文登上 Nature。 論文共同一作是來自清華...
可「自主進化」的Agent?首個端到端智能體符號化訓練框架開源了
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
只激活3.8B參數,性能比肩同款7B模型!訓練微調都能用,來自微軟
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI只需激活60%的參數,就能實現與全激活稠密模型相當的性能。 微軟亞洲研究院的一項新研究,實現了模型的完全稀疏激...
斯坦福提出大模型最強架構TTT,超越Transformers
夕小瑤科技說 原創作者 | 謝年年在Transformer被提出以前,以LSTMs為代表的RNNs網絡結構由于計算簡單、擅長處理序列數據常被用作NLP領域的基礎架構。但受其結...
新架構RNN反超Transformer:每個隱藏狀態都是一個模型,一作:從根本上改變語言模型
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI新架構,再次向Transformer發起挑戰! 核心思想:將RNN中的隱藏狀態換成可學習的模型。 甚至在測試時都可以學習,所...
全新TextGrad框架:用GPT-4o作引擎,自動優化端到端任務
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
ICML 2024高分論文 | 零階優化器微調大模型,大幅降低內存
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...