標(biāo)簽:專家

評(píng)測(cè)超Llama2,混合專家模型(MoE)會(huì)是大模型新方向嗎?

混合專家模型(MoE)成為最近關(guān)注的熱點(diǎn)。 先是 Reddit 上一篇關(guān)于 GPT-4 結(jié)構(gòu)的猜測(cè)帖,暗示了 GPT-4 可能是由 16 個(gè)子模塊組成的專家模型(MoE)的混合體。...
閱讀原文

8x7B開源MoE擊敗Llama 2逼近GPT-4!歐版OpenAI震驚AI界,22人公司半年估值20億

新智元報(bào)道編輯:編輯部【新智元導(dǎo)讀】前幾日,一條MoE的磁力鏈接引爆AI圈。剛剛出爐的基準(zhǔn)測(cè)試中,8*7B的小模型直接碾壓了Llama 2 70B!網(wǎng)友直呼這是初創(chuàng)公...
閱讀原文

深度揭秘爆火MoE!GPT-4關(guān)鍵架構(gòu),成開源模型逆襲锏

新智元報(bào)道編輯:編輯部【新智元導(dǎo)讀】上周末,Mistral甩出的開源MoE大模型,震驚了整個(gè)開源社區(qū)。MoE究竟是什么?它又是如何提升了大語(yǔ)言模型的性能?Mistra...
閱讀原文

一條磁力鏈接席卷AI圈,87GB種子直接開源8x7B MoE模型

機(jī)器之心報(bào)道機(jī)器之心編輯部「高端」的開源,往往采用最樸素的發(fā)布方式。昨天,Mistral AI 在 X 平臺(tái)甩出一條磁力鏈接,宣布了新的開源動(dòng)作。沒(méi)有長(zhǎng)篇官方博...
閱讀原文

首個(gè)開源MoE大模型發(fā)布!7Bx8個(gè)專家,離GPT-4最近的一集

夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI“取消今晚所有計(jì)劃!”,許多AI開發(fā)者決定不睡了。只因首個(gè)開源MoE大模型剛剛由Mistral AI發(fā)布。MoE架構(gòu)全稱專家混合...
閱讀原文

瀾碼科技創(chuàng)始人、CEO周健:專家知識(shí)的數(shù)字化是AI Agent落地的制勝之匙|甲子引力

Agent出現(xiàn)后,人機(jī)交互會(huì)發(fā)生變化。11月30日至12月1日,由中國(guó)科技產(chǎn)業(yè)智庫(kù)「甲子光年」主辦的「致追風(fēng)趕月的你」2023甲子引力年終盛典在北京順利舉行!百余...
閱讀原文

DeepMind最新研究:這個(gè)AI Agent,幾分鐘學(xué)會(huì)人類專家行為,登上Nature子刊

只需要幾分鐘,就可以成功模仿專家行為,并記住所有學(xué)過(guò)的知識(shí),Google DeepMind 研發(fā)的 AI Agent,登上了 Nature 子刊。據(jù)介紹,在 3D 模擬中,該智能體能夠...
閱讀原文

北大具身智能新成果:無(wú)需訓(xùn)練,聽指令就能靈活走位

北大前沿計(jì)算研究中心 投稿量子位 | 公眾號(hào) QbitAI北京大學(xué)董豪團(tuán)隊(duì)具身導(dǎo)航最新成果來(lái)了:無(wú)需額外建圖和訓(xùn)練,只需說(shuō)出導(dǎo)航指令,如:Walk forward across ...
閱讀原文

8張3090,1天壓縮萬(wàn)億參數(shù)大模型!3.2TB驟降至160GB,壓縮率高達(dá)20倍

新智元報(bào)道編輯:好困【新智元導(dǎo)讀】最近,來(lái)自ISTA的研究人員提出了一種全新的模型量化方法QMoE,可以將1.6萬(wàn)億個(gè)參數(shù)的SwitchTransformer壓縮到160GB以下(...
閱讀原文

將混合專家推向極限:只需更新0.32%的參數(shù)就能完成模型微調(diào)

機(jī)器之心報(bào)道編輯:Panda W微調(diào)無(wú)需更新全部模型參數(shù),這種方法只需更新不到 1% 的參數(shù)。眾所周知,大模型的訓(xùn)練成本很高,但其實(shí)對(duì)預(yù)訓(xùn)練后的模型進(jìn)行微調(diào)也...
閱讀原文
1345