?丟掉注意力的擴(kuò)散模型:Mamba帶火的SSM被蘋果、康奈爾盯上了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:?丟掉注意力的擴(kuò)散模型:Mamba帶火的SSM被蘋果、康奈爾盯上了
關(guān)鍵字:模型,架構(gòu),注意力,圖像,序列
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6975字
內(nèi)容摘要:機(jī)器之心報(bào)道機(jī)器之心編輯部替代注意力機(jī)制,SSM 真的大有可為?為了用更少的算力讓擴(kuò)散模型生成高分辨率圖像,注意力機(jī)制可以不要,這是康奈爾大學(xué)和蘋果的一項(xiàng)最新研究所給出的結(jié)論。眾所周知,注意力機(jī)制是 Transformer 架構(gòu)的核心組件,對(duì)于高質(zhì)量的文本、圖像生成都至關(guān)重要。但它的缺陷也很明顯,即計(jì)算復(fù)雜度會(huì)隨著序列長度的增加呈現(xiàn)二次方增長。這在長文本、高分辨率的圖像處理中都是一個(gè)令人頭疼的問題。為了解決這個(gè)問題,這項(xiàng)新研究用一個(gè)可擴(kuò)展性更強(qiáng)的狀態(tài)空間模型(SSM)主干替代了傳統(tǒng)架構(gòu)中的注意力機(jī)制,開發(fā)出了一個(gè)名為 Diffusion State Space Model(DIFFUSSM)的新架構(gòu)。這種新架構(gòu)可以使用更少的算力,媲美或超越具有注意力模塊的現(xiàn)有擴(kuò)散模型的圖像生成效果,出色地生成高分辨率圖像。得益于上周的發(fā)布,狀態(tài)空間模型 SSM 正受到越來越多的關(guān)注。Mamba 的核心在于…
原文鏈接:點(diǎn)此閱讀原文:?丟掉注意力的擴(kuò)散模型:Mamba帶火的SSM被蘋果、康奈爾盯上了
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)