將多模態(tài)大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:將多模態(tài)大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
關(guān)鍵字:模型,報(bào)告,專家,性能,參數(shù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5828字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部對(duì)于大型視覺語言模型(LVLM)而言,擴(kuò)展模型可以有效提高模型性能。然而,擴(kuò)大參數(shù)規(guī)模會(huì)顯著增加訓(xùn)練和推理成本,因?yàn)橛?jì)算中每個(gè) token 都會(huì)激活所有模型參數(shù)。
基于此,來自北京大學(xué)、中山大學(xué)等機(jī)構(gòu)的研究者聯(lián)合提出了一種新穎的 LVLM 訓(xùn)練策略 ——MoE-Tuning。MoE-Tuning可以構(gòu)建參數(shù)數(shù)量驚人但計(jì)算成本恒定的稀疏模型,并有效解決通常與多模態(tài)學(xué)習(xí)和模型稀疏性相關(guān)的性能下降問題。該研究還提出了一種基于 MoE 的新型稀疏 LVLM 架構(gòu) ——MoE-LLaVA 框架。該框架獨(dú)特地在部署過程中通過路由算法僅激活 top-k 專家(expert),其余專家保持非活動(dòng)(inactive)狀態(tài)。論文地址:https://arxiv.org/abs/2401.15947
項(xiàng)目地址:https://github.com/PKU-YuanGroup/MoE-LLaVA
Demo地址:https://huggingface.co/spaces/LanguageBind/MoE-LLaVA
論文題目:MoE-LLaVA: Mixture of Experts
原文鏈接:將多模態(tài)大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)