標(biāo)簽：專家

從零手搓MoE大模型，大神級(jí)教程來了

克雷西發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI傳說中GPT-4的“致勝法寶”——MoE（混合專家）架構(gòu)，自己也能手搓了！ Hugging Face上有一位機(jī)器學(xué)習(xí)大神，分享了如何...

閱讀原文

AIGC動(dòng)態(tài)

2年前 (2024)

GPT-4準(zhǔn)確率最高飆升64%！斯坦福OpenAI重磅研究：全新Meta-Prompting方法讓LLM當(dāng)老板

新智元報(bào)道編輯：桃子好困【新智元導(dǎo)讀】大模型幻覺問題還有另一種解法？斯坦福聯(lián)手OpenAI研究人員提出「元提示」新方法，能夠讓大模型成為全能「指揮家」...

閱讀原文

AIGC動(dòng)態(tài)

2年前 (2024)

OpenAI、斯坦福大學(xué)提出Meta-Prompting，有效提升語言模型的性能

夕小瑤科技說原創(chuàng)作者 | 智商掉了一地、Python 為了研究如何提高語言模型的性能，使其更充分有效地輸出對(duì)于提問的回答，來自斯坦福和 OpenAI 的學(xué)者強(qiáng)強(qiáng)聯(lián)手...

閱讀原文

AIGC動(dòng)態(tài)

2年前 (2024)

混合專家模型Mixtral-8x7B模型挖坑指北

01前言MistralAI很高冷的給開源社區(qū)扔了一條磁力鏈，基于Mixture of Experts的混合專家模型Mixtral-8x7B和指令微調(diào)的Mixtral-8x7B-Instruct來了。此前曾爆料G...

閱讀原文

AIGC動(dòng)態(tài)

2年前 (2024)

大模型專家混合MoE模型詳解

本文轉(zhuǎn)載自公眾號(hào)：青稞AI，原作者：Miller@知乎。Mixtral 8x7B 的推出（參見公告[1]和模型卡片[2]在開放 AI 領(lǐng)域引發(fā)了廣泛關(guān)注，特別是對(duì)于專家混合（Mixtu...

閱讀原文

AIGC動(dòng)態(tài)

2年前 (2024)

MoE與Mamba強(qiáng)強(qiáng)聯(lián)合，將狀態(tài)空間模型擴(kuò)展到數(shù)百億參數(shù)

機(jī)器之心報(bào)道編輯：Panda性能與 Mamba 一樣，但所需訓(xùn)練步驟數(shù)卻少 2.2 倍。狀態(tài)空間模型（SSM）是近來一種備受關(guān)注的 Transformer 替代技術(shù)，其優(yōu)勢(shì)是能在...

閱讀原文

AIGC動(dòng)態(tài)

2年前 (2024)

被OpenAI、Mistral AI帶火的MoE是怎么回事？一文貫通專家混合架構(gòu)部署

選自 HuggingFace 博客編譯：趙陽本文將介紹 MoE 的構(gòu)建模塊、訓(xùn)練方法以及在使用它們進(jìn)行推理時(shí)需要考慮的權(quán)衡因素。專家混合 (MoE) 是 LLM 中常用的一種技...

閱讀原文

AIGC動(dòng)態(tài)

2年前 (2024)

殺瘋了的開源專家模型 Mixtral 8x7B 論文公開啦！

夕小瑤科技說原創(chuàng)作者 | 付奶茶、王二狗上個(gè)月法國(guó)初創(chuàng)公司 Mistral AI 開源的一個(gè)8x7B MoE模型Mixtral 8x7B引爆了AI社區(qū)。一是因?yàn)樗男阅軗魯×薒Lama2和...

閱讀原文

AIGC動(dòng)態(tài)

2年前 (2024)

Arxiv最熱論文推薦：揭秘Transformer新身份、谷歌VLM蒸餾、復(fù)旦LEGO模型

本文內(nèi)容由賽博馬良「AI論文解讀達(dá)人」智能體生成，人工整理排版。「AI論文解讀達(dá)人」可提供最熱AI論文推薦、論文解讀等功能。傳送門： https://www.sai...

閱讀原文

AIGC動(dòng)態(tài)

2年前 (2024)

首個(gè)國(guó)產(chǎn)開源MoE大模型來了！性能媲美Llama 2-7B，計(jì)算量降低60%

克雷西發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI開源MoE模型，終于迎來首位國(guó)產(chǎn)選手！它的表現(xiàn)完全不輸給密集的Llama 2-7B模型，計(jì)算量卻僅有40%。這個(gè)模型堪稱1...

閱讀原文

AIGC動(dòng)態(tài)

2年前 (2024)

混合專家系統(tǒng)里根本沒專家？開源MoE模型論文引網(wǎng)友熱議

克雷西發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI紅極一時(shí)的開源MoE模型Mixtral，論文終于新鮮出爐！除了披露了更多技術(shù)細(xì)節(jié)，論文中還有一個(gè)結(jié)論引發(fā)了熱烈討論——...

閱讀原文

AIGC動(dòng)態(tài)

2年前 (2024)

Mixtral 8x7B論文終于來了：架構(gòu)細(xì)節(jié)、參數(shù)量首次曝光

機(jī)器之心報(bào)道作者：陳萍、大盤雞Mixtral 8x7B 在大多數(shù)基準(zhǔn)測(cè)試中都優(yōu)于 Llama 2 70B 和 GPT-3.5。前段時(shí)間，那個(gè)爆火整個(gè)開源社區(qū)的 Mixtral 8x7B MoE 模型...

閱讀原文

AIGC動(dòng)態(tài)

2年前 (2024)

一條磁力鏈爆全網(wǎng)，Mixtral 8x7B論文來了！碾壓Llama 2 70B，每token僅需激活13B參數(shù)

新智元報(bào)道編輯：桃子好困【新智元導(dǎo)讀】爆火社區(qū)的Mixtral 8x7B模型，今天終于放出了arXiv論文！所有模型細(xì)節(jié)全部公開了。還記得一個(gè)月前，Mistral AI突然...

閱讀原文

AIGC動(dòng)態(tài)

2年前 (2024)

OpenAI翁麗蓮的Agent公式，一定是正確的嗎？

衡宇發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI2024年了，被寄予厚望的AI Agent，到底是誰在用啊？！它被視作通向AGI最有可能的路徑之一，國(guó)內(nèi)外公司都研究得火熱...

閱讀原文

AIGC動(dòng)態(tài)

2年前 (2024)

多模態(tài)大模型學(xué)雜了能力反下降？新研究：MoE+通用專家解決沖突

港科大&南科大&華為諾亞方舟實(shí)驗(yàn)室量子位 | 公眾號(hào) QbitAI微調(diào)，能讓通用大模型更加適配具體的行業(yè)應(yīng)用。但現(xiàn)在，研究人員們卻發(fā)現(xiàn)：對(duì)多模態(tài)大模...

閱讀原文

AIGC動(dòng)態(tài)

2年前 (2023)

1 2 345 6…8,222