視覺(jué)Mamba模型的Swin時(shí)刻,中國(guó)科學(xué)院、華為等推出VMamba
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:視覺(jué)Mamba模型的Swin時(shí)刻,中國(guó)科學(xué)院、華為等推出VMamba
關(guān)鍵字:模型,華為,復(fù)雜度,視覺(jué),線性
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4759字
內(nèi)容摘要:
機(jī)器之心專(zhuān)欄
機(jī)器之心編輯部Transformer 在大模型領(lǐng)域的地位可謂是難以撼動(dòng)。不過(guò),這個(gè)AI 大模型的主流架構(gòu)在模型規(guī)模的擴(kuò)展和需要處理的序列變長(zhǎng)后,局限性也愈發(fā)凸顯了。Mamba的出現(xiàn),正在強(qiáng)力改變著這一切。它優(yōu)秀的性能立刻引爆了AI圈。
上周四,Vision Mamba(Vim)的提出已經(jīng)展現(xiàn)了它成為視覺(jué)基礎(chǔ)模型的下一代骨干的巨大潛力。僅隔一天,中國(guó)科學(xué)院、華為、鵬城實(shí)驗(yàn)室的研究人員提出了 VMamba:一種具有全局感受野、線性復(fù)雜度的視覺(jué) Mamba 模型。這項(xiàng)工作標(biāo)志著視覺(jué) Mamba 模型 Swin 時(shí)刻的來(lái)臨。論文標(biāo)題:VMamba: Visual State Space Model
論文地址: https://arxiv.org/abs/2401.10166
代碼地址: https://github.com/MzeroMiko/VMamba
CNN 和視覺(jué) Transformer(ViT)是當(dāng)前最主流的兩類(lèi)基礎(chǔ)視覺(jué)模型。盡管 CNN 具有線性復(fù)雜度,ViT 具有更為強(qiáng)大的數(shù)據(jù)擬合能力,然而代價(jià)是計(jì)算復(fù)雜較高。研究者認(rèn)為 ViT 之所以擬合能力強(qiáng),是因?yàn)槠渚哂腥指?/p>
原文鏈接:視覺(jué)Mamba模型的Swin時(shí)刻,中國(guó)科學(xué)院、華為等推出VMamba
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)