標(biāo)簽:專家
138 億美元的 Scale AI:解決正確的問(wèn)題,做「技術(shù)含量最低」的生意
Scale AI 的創(chuàng)始人 8 年前意識(shí)到,所有干 AI 的都認(rèn)為數(shù)據(jù)至關(guān)重要,但沒多少人把數(shù)據(jù)當(dāng)成主業(yè)。 他從 MIT 輟學(xué),創(chuàng)業(yè)做數(shù)據(jù)標(biāo)注。 2016 年,Alex Wang 成立 ...
華為GTS LocMoE+:高可擴(kuò)展性親和度 MoE 架構(gòu),低開銷實(shí)現(xiàn)主動(dòng)路由
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
MoE也有Scaling Law,「百萬(wàn)專家」利用率近100%!DeepMind華人挑戰(zhàn)MoE極限
新智元報(bào)道編輯:編輯部 【新智元導(dǎo)讀】MoE已然成為AI界的主流架構(gòu),不論是開源Grok,還是閉源GPT-4,皆是其擁躉。然而,這些模型的專家,最大數(shù)量?jī)H有32個(gè)。...
生成式模型不只會(huì)「模仿」!哈佛、UCSB等最新成果:性能可超越訓(xùn)練集專家水平
新智元報(bào)道編輯:LRS 【新智元導(dǎo)讀】生成式模型原本被設(shè)計(jì)來(lái)模仿人類的各種復(fù)雜行為,但人們普遍認(rèn)為它們最多只能達(dá)到與其訓(xùn)練數(shù)據(jù)中的專家相當(dāng)?shù)乃健2贿^(guò)...
單一作者論文,谷歌提出百萬(wàn)專家Mixture,超越密集前饋、稀疏MoE
機(jī)器之心報(bào)道 編輯:澤南、杜偉釋放進(jìn)一步擴(kuò)展 Transformer 的潛力,同時(shí)還可以保持計(jì)算效率。標(biāo)準(zhǔn) Transformer 架構(gòu)中的前饋(FFW)層會(huì)隨著隱藏層寬度的增...
從零實(shí)現(xiàn)一個(gè)MOE(專家混合模型)
7月11日19點(diǎn),「智猩猩自動(dòng)駕駛新青年講座」第36講將開講,主講理想汽車最新成果:基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent,由理想汽車實(shí)習(xí)研究員、中國(guó)科學(xué)院自...
理財(cái)AI勇闖「無(wú)人區(qū)」:理解專家、成為專家
機(jī)器之心原創(chuàng) 作者:吳昕這是一條少有人走過(guò)的路。用十年時(shí)間成為全球在線服務(wù)數(shù)億用戶的財(cái)富管理平臺(tái)后,擺在螞蟻財(cái)富面前的是一段少有人走過(guò)的路: 這 5 億...
揭秘:階躍星辰萬(wàn)億MoE+多模態(tài)大模型矩陣亮相
機(jī)器之心原創(chuàng) 作者:張倩在 2024 年世界人工智能大會(huì)的現(xiàn)場(chǎng),很多人在一個(gè)展臺(tái)前排隊(duì),只為讓 AI 大模型給自己在天庭「安排」一個(gè)差事。具體流程是這樣的:首...
32專家MoE大模型免費(fèi)商用!性能全面對(duì)標(biāo)Llama3,單token推理消耗僅5.28%
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI每個(gè)token只需要5.28%的算力,精度就能全面對(duì)標(biāo)Llama 3。 開源大模型,再添一位重量級(jí)選手—— 來(lái)自浪潮信息的32專家...
馬斯克燒60億美元難題,國(guó)內(nèi)大廠有解?開源MoE模算效率黑馬登場(chǎng),3.7B參數(shù)單挑Llama 3-70B
新智元報(bào)道編輯:編輯部 【新智元導(dǎo)讀】馬斯克最近哭窮表示,xAI需要部署10萬(wàn)個(gè)H100才能訓(xùn)出Grok 3,影響全球的大模型算力荒怎么解?昨天開源的這款MoE大模型...
性能對(duì)標(biāo)Llama 3,算力消耗僅1/19!源2.0-M32大幅提升模算效率
模更強(qiáng),算更優(yōu)!集成32個(gè)專家、模算效率大幅提升,浪潮信息讓大模型應(yīng)用火力全開。 作者|程茜 編輯|漠影 智東西5月28日?qǐng)?bào)道,今天,浪潮信息發(fā)布基于MoE的源...
150B token從頭訓(xùn)練,普林斯頓Meta發(fā)布完全可微MoE架構(gòu)Lory
新智元報(bào)道編輯:?jiǎn)虠?好困 【新智元導(dǎo)讀】前幾天,普林斯頓大學(xué)聯(lián)合Meta在arXiv上發(fā)表了他們最新的研究成果——Lory模型,論文提出構(gòu)建完全可微的MoE模型,是...
AI史上的第一個(gè)成功的商業(yè)產(chǎn)品是怎樣誕生的?
大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自知識(shí)分子 圖源:pixabay 撰文丨張?zhí)烊?024年初,自然雜志公布了2024年重要的七項(xiàng)科技,其中一項(xiàng)是“蛋白質(zhì)序列的深度學(xué)習(xí)模型”。這起源于...
微軟讓MoE長(zhǎng)出多個(gè)頭,大幅提升專家激活率
機(jī)器之心報(bào)道 編輯:Panda WMH-MoE 能優(yōu)化幾乎所有專家,實(shí)現(xiàn)起來(lái)非常簡(jiǎn)單。混合專家(MoE)是個(gè)好方法,支持著現(xiàn)在一些非常優(yōu)秀的大模型,比如谷歌家的 Gemi...
Mixtral-8x7B MoE大模型微調(diào)實(shí)踐,超越Llama2-65B
直播預(yù)告 | 5月14日晚7點(diǎn),「智猩猩AI新青年講座」第235講正式開講,慕尼黑工業(yè)大學(xué)視覺實(shí)驗(yàn)室陳振宇博士將直播講解《三維室內(nèi)場(chǎng)景紋理圖生成》歡迎掃碼報(bào)名~...
粵公網(wǎng)安備 44011502001135號(hào)