標(biāo)簽:參數(shù)
大模型也有小偷?為保護(hù)你的參數(shù),上交大給大模型制作「人類可讀指紋」
機(jī)器之心專欄 機(jī)器之心編輯部將不同的基模型象征為不同品種的狗,其中相同的「狗形指紋」表明它們?cè)醋酝粋€(gè)基模型。 大模型的預(yù)訓(xùn)練需要耗費(fèi)巨量的計(jì)算資源...
2B參數(shù)性能超Mistral-7B:面壁智能多模態(tài)端側(cè)模型開(kāi)源
機(jī)器之心報(bào)道 編輯:澤南千元機(jī)也能本地運(yùn)行。在大模型不斷向著大體量方向前進(jìn)的同時(shí),最近一段時(shí)間,人們?cè)趦?yōu)化和部署方面也取得了成果。 2 月 1 日,面壁智...
將多模態(tài)大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
機(jī)器之心專欄 機(jī)器之心編輯部對(duì)于大型視覺(jué)語(yǔ)言模型(LVLM)而言,擴(kuò)展模型可以有效提高模型性能。然而,擴(kuò)大參數(shù)規(guī)模會(huì)顯著增加訓(xùn)練和推理成本,因?yàn)橛?jì)算中每...
編程能力超GPT-4,羊駝代碼版“超大杯”來(lái)了,小扎還親自劇透Llama3
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI羊駝家族的“最強(qiáng)開(kāi)源代碼模型”,迎來(lái)了它的“超大杯”—— 就在今天凌晨,Meta宣布推出Code Llama的70B版本。 在HumanE...
Meta官方的Prompt工程指南:Llama 2這樣用更高效
機(jī)器之心報(bào)道 編輯:小舟隨著大型語(yǔ)言模型(LLM)技術(shù)日漸成熟,提示工程(Prompt Engineering)變得越來(lái)越重要。一些研究機(jī)構(gòu)發(fā)布了 LLM 提示工程指南,包括...
小米新一代Kaldi團(tuán)隊(duì)論文解讀:新型自動(dòng)語(yǔ)音識(shí)別 (ASR) 模型Zipformer誕生之路|ICLR 2024 Oral
機(jī)器之心專欄 作者:新一代 Kaldi 團(tuán)隊(duì)近日,小米集團(tuán)新一代 Kaldi 團(tuán)隊(duì)關(guān)于語(yǔ)音識(shí)別聲學(xué)模型的論文《Zipformer: A faster and better encoder for automatic...
大模型專家混合MoE模型詳解
本文轉(zhuǎn)載自公眾號(hào):青稞AI,原作者:Miller@知乎。Mixtral 8x7B 的推出(參見(jiàn)公告[1]和模型卡片[2]在開(kāi)放 AI 領(lǐng)域引發(fā)了廣泛關(guān)注,特別是對(duì)于專家混合(Mixtu...
大模型訓(xùn)練loss突刺原因和解決辦法
直播預(yù)告 | 今晚7點(diǎn),「自動(dòng)駕駛新青年講座」第35講正式開(kāi)講,LMDrive一作、香港中文大學(xué)MMLab在讀博士邵昊將主講《LMDrive:大語(yǔ)言模型加持的閉環(huán)端到端自動(dòng)...
被OpenAI、Mistral AI帶火的MoE是怎么回事?一文貫通專家混合架構(gòu)部署
選自 HuggingFace 博客 編譯:趙陽(yáng)本文將介紹 MoE 的構(gòu)建模塊、訓(xùn)練方法以及在使用它們進(jìn)行推理時(shí)需要考慮的權(quán)衡因素。專家混合 (MoE) 是 LLM 中常用的一種技...
超過(guò)ConvNeXt,CSWin等!上海交大提出Transformer架構(gòu)新SOTA:SeTformer!
直播預(yù)告 | 1月22日晚7點(diǎn),「自動(dòng)駕駛新青年講座」第35講正式開(kāi)講,LMDrive一作、香港中文大學(xué)MMLab在讀博士邵昊將主講《LMDrive:大語(yǔ)言模型加持的閉環(huán)端到...
蘋(píng)果 Vision Pro 正式開(kāi)啟預(yù)定,我們找到了這些關(guān)鍵參數(shù)
蘋(píng)果 Vision Pro 正式開(kāi)啟預(yù)定,我們找到了這些關(guān)鍵參數(shù) , 發(fā)表于2024-01-1922:18 , ,…
AI視頻可控性高能進(jìn)化!復(fù)刻《黑客帝國(guó)》經(jīng)典鏡頭只需筆刷
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI5個(gè)筆刷,對(duì)著一張圖一頓刷刷刷刷刷,原本靜止的小鳥(niǎo)們就各自運(yùn)動(dòng)了起來(lái): Gen-2“運(yùn)動(dòng)筆刷”(Motion Brush)官宣再進(jìn)...
三個(gè)臭皮匠頂個(gè)諸葛亮?可能是真的,已證實(shí)混合多個(gè)小模型性能比肩GPT3.5
機(jī)器之心報(bào)道 編輯:rome對(duì)模型參數(shù)量的迷信、執(zhí)念也許可以放下了,混合多個(gè)小模型也是未來(lái)構(gòu)造對(duì)話型 AI 的一個(gè)光明的方向。 在對(duì)話型人工智能(AI)研究中...
獨(dú)家|非 Transformer 開(kāi)源大模型 RWKV 元始智能已完成種子輪融資
訓(xùn)練出千億模型依然是 RWKV 當(dāng)下最能證明自己的事情。作者丨張 進(jìn) 編輯丨陳彩嫻 AI科技評(píng)論獨(dú)家獲悉,開(kāi)源LLM RWKV背后的元始智能,種子輪融資已于1月16日走...
Stability AI發(fā)布全新代碼模型Stable Code 3B!媲美70億Code Llama,沒(méi)GPU也能跑
新智元報(bào)道編輯:潤(rùn) alan 【新智元導(dǎo)讀】今天,Stability AI發(fā)布了Stable Code 3B,在圖片生成之外的戰(zhàn)場(chǎng)上,Stability也開(kāi)始發(fā)力了今天,Stability AI發(fā)布了...
粵公網(wǎng)安備 44011502001135號(hào)