4秒看完2小時(shí)電影！阿里發(fā)布通用多模態(tài)大模型mPLUG-Owl3 | 開源

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：4秒看完2小時(shí)電影！阿里發(fā)布通用多模態(tài)大模型mPLUG-Owl3 | 開源
關(guān)鍵字：模型,報(bào)告,圖片,視覺,特征
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

阿里mPLUG團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI4秒看完2小時(shí)電影，阿里團(tuán)隊(duì)新成果正式亮相——
推出通用多模態(tài)大模型mPLUG-Owl3，專門用來(lái)理解多圖、長(zhǎng)視頻。
具體來(lái)說(shuō)，以LLaVA-Next-Interleave為基準(zhǔn)，mPLUG-Owl3將模型的First Token Latency縮小了6倍，且單張A100能建模的圖像數(shù)目提升了8倍，達(dá)到了400張圖片，實(shí)測(cè)4秒就能看完一部2小時(shí)的電影。
換句話說(shuō)，模型的推理效率有了極大提升。
而且不犧牲模型的準(zhǔn)確性。
mPLUG-Owl3還在多模態(tài)大模型所涉及的各種場(chǎng)景，包括單圖、多圖、視頻領(lǐng)域的諸多Benchmarks上達(dá)到了SOTA。
論文作者來(lái)自阿里mPLUG團(tuán)隊(duì)，他們一直深耕多模態(tài)大模型底座，在此之前還提出了：
高效多模態(tài)底座mPLUG系列
模塊化多模態(tài)大語(yǔ)言模型底座mPLUG-Owl系列
文檔理解底座mPLUG-DocOwl系列
下面就讓我們來(lái)了解一下本次發(fā)布的mPLUG-Owl3究竟帶來(lái)了什么黑科技吧。
玩法解鎖團(tuán)隊(duì)展示了mPLUG-Owl3的幾種常見用法。
多模態(tài)檢索增強(qiáng)一般來(lái)說(shuō)，對(duì)于模型沒有學(xué)過(guò)的知識(shí)，通過(guò)檢索系統(tǒng)

原文鏈接：4秒看完2小時(shí)電影！阿里發(fā)布通用多模態(tài)大模型mPLUG-Owl3 | 開源