標簽：門控

WPS接入DeepSeek，秒變辦公神器！

WPS 大家經(jīng)常用來日常寫作，雖然本身提供了AI功能，但可惜需要會員，本文教你三分鐘接入最火的DeepSeek，讓WPS秒變辦公神器。 DeepSeek API申請地址：http:/...

閱讀原文

AI教程

9個月前

AI賺錢副業(yè)~AI生成影視解說，半個月漲粉變現(xiàn)3.5W+！

這兩年大家都在感嘆生活不易，然而我想說的是，機會還是有的，但問題不在于有沒有，而在于你是否能夠認準機會，然后抓住它。接觸過很多咨詢項目的人，發(fā)現(xiàn)...

使用教程

1年前 (2024)

RNN回歸！Bengio新作大道至簡與Transformer一較高下

新智元報道編輯：alan 【新智元導讀】近日，深度學習三巨頭之一的Yoshua Bengio，帶領團隊推出了全新的RNN架構，以大道至簡的思想與Transformer一較高下。在T...

閱讀原文

AIGC動態(tài)

1年前 (2024)

ECCV 2024 | 一眼臨摹：瞥一眼就能模仿筆跡的AI

AIxiv專欄是機器之心發(fā)布學術、技術內容的欄目。過去數(shù)年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業(yè)的頂級實驗室，有效促進了學術...

閱讀原文

AIGC動態(tài)

1年前 (2024)

算法、系統(tǒng)和應用，三個視角全面讀懂混合專家（MoE）

機器之心報道編輯：Panda WLLM 很強，而為了實現(xiàn) LLM 的可持續(xù)擴展，有必要找到并實現(xiàn)能提升其效率的方法，混合專家（MoE）就是這類方法的一大重要成員。最...

閱讀原文

AIGC動態(tài)

1年前 (2024)

從零實現(xiàn)一個MOE（專家混合模型）

7月11日19點，「智猩猩自動駕駛新青年講座」第36講將開講，主講理想汽車最新成果：基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent，由理想汽車實習研究員、中國科學院自...

閱讀原文

AIGC動態(tài)

1年前 (2024)

馬斯克燒60億美元難題，國內大廠有解？開源MoE模算效率黑馬登場，3.7B參數(shù)單挑Llama 3-70B

新智元報道編輯：編輯部【新智元導讀】馬斯克最近哭窮表示，xAI需要部署10萬個H100才能訓出Grok 3，影響全球的大模型算力荒怎么解？昨天開源的這款MoE大模型...

閱讀原文

AIGC動態(tài)

1年前 (2024)

基礎架構競爭激烈，LSTM原作者提出指數(shù)門控xLSTM，性能直逼Transformer和Mamba

大數(shù)據(jù)文摘授權轉載自將門創(chuàng)投作者：seven_ 經(jīng)典長短時記憶網(wǎng)絡（LSTM）架構最早可以追溯到20世紀90年代，因其獨特的常量誤差傳遞（constant error carousel...

閱讀原文

AIGC動態(tài)

1年前 (2024)

原作者帶隊，LSTM真殺回來了！

機器之心報道編輯：蛋醬LSTM：這次重生，我要奪回 Transformer 拿走的一切。20 世紀 90 年代，長短時記憶（LSTM）方法引入了恒定誤差選擇輪盤和門控的核心思...

閱讀原文

AIGC動態(tài)

2年前 (2024)

大模型掃盲系列——大模型實用技術介紹（上）

大數(shù)據(jù)文摘受權轉載自數(shù)據(jù)派THU 編輯：黃繼彥校對：林贛敏01 Gemma模型架構和參數(shù)計算上一篇文章《原創(chuàng) | 大模型掃盲系列——初識大模型》從比較宏觀的角度初...

閱讀原文

AIGC動態(tài)

2年前 (2024)

DeepMind攜Mamba華人作者推Transformer之作！性能暴漲媲美Llama 2，推理能效大幅碾壓

新智元報道編輯：編輯部【新智元導讀】線性RNN贏了？近日，谷歌DeepMind一口氣推出兩大新架構，在d基準測試中超越了Transformer。新架構不僅保證了高效的訓...

閱讀原文

AIGC動態(tài)

2年前 (2024)

群魔亂舞：MoE大模型詳解

700個開發(fā)硬件免費申請?現(xiàn)金大獎！生成式 AI、機器人 AI、PC AI 三大賽道！AMD Pervasive AI 開發(fā)者挑戰(zhàn)賽報名火熱進行中，掃碼了解詳情并報名～導讀本文是知...

閱讀原文

AIGC動態(tài)

2年前 (2024)

打破MoE訓練效率與性能瓶頸，華為盤古稀疏大模型全新架構LocMoE出爐

機器之心專欄機器之心編輯部2023 年 12 月，首個開源 MoE 大模型 Mixtral 8×7B 發(fā)布，在多種基準測試中，其表現(xiàn)近乎超越了 GPT-3.5 和 LLaMA 2 70B，而推理...

閱讀原文

AIGC動態(tài)

2年前 (2024)

從零手搓MoE大模型，大神級教程來了

克雷西發(fā)自凹非寺量子位 | 公眾號 QbitAI傳說中GPT-4的“致勝法寶”——MoE（混合專家）架構，自己也能手搓了！ Hugging Face上有一位機器學習大神，分享了如何...

閱讀原文

AIGC動態(tài)

2年前 (2024)

大模型專家混合MoE模型詳解

本文轉載自公眾號：青稞AI，原作者：Miller@知乎。Mixtral 8x7B 的推出（參見公告[1]和模型卡片[2]在開放 AI 領域引發(fā)了廣泛關注，特別是對于專家混合（Mixtu...

閱讀原文

AIGC動態(tài)

2年前 (2024)

被OpenAI、Mistral AI帶火的MoE是怎么回事？一文貫通專家混合架構部署

選自 HuggingFace 博客編譯：趙陽本文將介紹 MoE 的構建模塊、訓練方法以及在使用它們進行推理時需要考慮的權衡因素。專家混合 (MoE) 是 LLM 中常用的一種技...

閱讀原文

AIGC動態(tài)

2年前 (2024)

殺瘋了的開源專家模型 Mixtral 8x7B 論文公開啦！

夕小瑤科技說原創(chuàng)作者 | 付奶茶、王二狗上個月法國初創(chuàng)公司 Mistral AI 開源的一個8x7B MoE模型Mixtral 8x7B引爆了AI社區(qū)。一是因為它的性能擊敗了LLama2和...

閱讀原文

AIGC動態(tài)

2年前 (2024)