4秒看完2小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型mPLUG-Owl3 | 開源
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:4秒看完2小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型mPLUG-Owl3 | 開源
關(guān)鍵字:模型,報(bào)告,圖片,視覺,特征
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
阿里mPLUG團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI4秒看完2小時(shí)電影,阿里團(tuán)隊(duì)新成果正式亮相——
推出通用多模態(tài)大模型mPLUG-Owl3,專門用來(lái)理解多圖、長(zhǎng)視頻。
具體來(lái)說(shuō),以LLaVA-Next-Interleave為基準(zhǔn),mPLUG-Owl3將模型的First Token Latency縮小了6倍,且單張A100能建模的圖像數(shù)目提升了8倍,達(dá)到了400張圖片,實(shí)測(cè)4秒就能看完一部2小時(shí)的電影。
換句話說(shuō),模型的推理效率有了極大提升。
而且不犧牲模型的準(zhǔn)確性。
mPLUG-Owl3還在多模態(tài)大模型所涉及的各種場(chǎng)景,包括單圖、多圖、視頻領(lǐng)域的諸多Benchmarks上達(dá)到了SOTA。
論文作者來(lái)自阿里mPLUG團(tuán)隊(duì),他們一直深耕多模態(tài)大模型底座,在此之前還提出了:
高效多模態(tài)底座mPLUG系列
模塊化多模態(tài)大語(yǔ)言模型底座mPLUG-Owl系列
文檔理解底座mPLUG-DocOwl系列
下面就讓我們來(lái)了解一下本次發(fā)布的mPLUG-Owl3究竟帶來(lái)了什么黑科技吧。
玩法解鎖團(tuán)隊(duì)展示了mPLUG-Owl3的幾種常見用法。
多模態(tài)檢索增強(qiáng)一般來(lái)說(shuō),對(duì)于模型沒有學(xué)過(guò)的知識(shí),通過(guò)檢索系統(tǒng)
原文鏈接:4秒看完2小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型mPLUG-Owl3 | 開源
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介: