視覺Mamba模型的Swin時刻,中國科學(xué)院、華為等推出VMamba

AIGC動態(tài)歡迎閱讀
原標題:視覺Mamba模型的Swin時刻,中國科學(xué)院、華為等推出VMamba
關(guān)鍵字:模型,華為,復(fù)雜度,視覺,線性
文章來源:機器之心
內(nèi)容字數(shù):4759字
內(nèi)容摘要:
機器之心專欄
機器之心編輯部Transformer 在大模型領(lǐng)域的地位可謂是難以撼動。不過,這個AI 大模型的主流架構(gòu)在模型規(guī)模的擴展和需要處理的序列變長后,局限性也愈發(fā)凸顯了。Mamba的出現(xiàn),正在強力改變著這一切。它優(yōu)秀的性能立刻引爆了AI圈。
上周四,Vision Mamba(Vim)的提出已經(jīng)展現(xiàn)了它成為視覺基礎(chǔ)模型的下一代骨干的巨大潛力。僅隔一天,中國科學(xué)院、華為、鵬城實驗室的研究人員提出了 VMamba:一種具有全局感受野、線性復(fù)雜度的視覺 Mamba 模型。這項工作標志著視覺 Mamba 模型 Swin 時刻的來臨。論文標題:VMamba: Visual State Space Model
論文地址: https://arxiv.org/abs/2401.10166
代碼地址: https://github.com/MzeroMiko/VMamba
CNN 和視覺 Transformer(ViT)是當(dāng)前最主流的兩類基礎(chǔ)視覺模型。盡管 CNN 具有線性復(fù)雜度,ViT 具有更為強大的數(shù)據(jù)擬合能力,然而代價是計算復(fù)雜較高。研究者認為 ViT 之所以擬合能力強,是因為其具有全局感
原文鏈接:視覺Mamba模型的Swin時刻,中國科學(xué)院、華為等推出VMamba
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號