驍龍888實(shí)時(shí)運(yùn)行,美團(tuán)、浙大等打造全流程移動(dòng)端多模態(tài)大模型MobileVLM
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:驍龍888實(shí)時(shí)運(yùn)行,美團(tuán)、浙大等打造全流程移動(dòng)端多模態(tài)大模型MobileVLM
關(guān)鍵字:視覺,模型,本文,研究者,語言
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):11177字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部大模型涌向移動(dòng)端的浪潮愈演愈烈,終于有人把多模態(tài)大模型也搬到了移動(dòng)端上。近日,美團(tuán)、浙大等推出了能夠在移動(dòng)端部署的多模態(tài)大模型,包含了 LLM 基座訓(xùn)練、SFT、VLM 全流程。也許不久的將來,每個(gè)人都能方便、快捷、低成本的擁有屬于自己的大模型。MobileVLM 是一款專為移動(dòng)設(shè)備設(shè)計(jì)的快速、強(qiáng)大和開放的視覺語言助手。它結(jié)合了面向移動(dòng)設(shè)備的架構(gòu)設(shè)計(jì)和技術(shù),包括從頭開始訓(xùn)練的 1.4B 和 2.7B 參數(shù)的語言模型、以 CLIP 方式預(yù)訓(xùn)練的多模態(tài)視覺模型,以及通過投影實(shí)現(xiàn)的高效跨模態(tài)交互。在各種視覺語言基準(zhǔn)測試中,MobileVLM 的性能可媲美大型模型。此外,它還在高通驍龍 888 CPU 和英偉達(dá) Jeston Orin GPU 上展示了最快的推理速度。論文地址:https://arxiv.org/pdf/2312.16886.pdf
Code 地址:https://github.com/Meituan-AutoML/MobileVLM
簡介
大型多模態(tài)模型(LMMs),尤其是視覺語言模型(VLMs)系列,由于其在感知和推理方面的能力大大增強(qiáng),已成為構(gòu)
原文鏈接:驍龍888實(shí)時(shí)運(yùn)行,美團(tuán)、浙大等打造全流程移動(dòng)端多模態(tài)大模型MobileVLM
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)