?丟掉注意力的擴(kuò)散模型：Mamba帶火的SSM被蘋(píng)果、康奈爾盯上了

AIGC動(dòng)態(tài)2年前 (2023)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：?丟掉注意力的擴(kuò)散模型：Mamba帶火的SSM被蘋(píng)果、康奈爾盯上了

關(guān)鍵字：模型,架構(gòu),注意力,圖像,序列

文章來(lái)源：機(jī)器之心

內(nèi)容字?jǐn)?shù)：6975字

內(nèi)容摘要：機(jī)器之心報(bào)道機(jī)器之心編輯部替代注意力機(jī)制，SSM 真的大有可為？為了用更少的算力讓擴(kuò)散模型生成高分辨率圖像，注意力機(jī)制可以不要，這是康奈爾大學(xué)和蘋(píng)果的一項(xiàng)最新研究所給出的結(jié)論。眾所周知，注意力機(jī)制是 Transformer 架構(gòu)的核心組件，對(duì)于高質(zhì)量的文本、圖像生成都至關(guān)重要。但它的缺陷也很明顯，即計(jì)算復(fù)雜度會(huì)隨著序列長(zhǎng)度的增加呈現(xiàn)二次方增長(zhǎng)。這在長(zhǎng)文本、高分辨率的圖像處理中都是一個(gè)令人頭疼的問(wèn)題。為了解決這個(gè)問(wèn)題，這項(xiàng)新研究用一個(gè)可擴(kuò)展性更強(qiáng)的狀態(tài)空間模型（SSM）主干替代了傳統(tǒng)架構(gòu)中的注意力機(jī)制，開(kāi)發(fā)出了一個(gè)名為 Diffusion State Space Model（DIFFUSSM）的新架構(gòu)。這種新架構(gòu)可以使用更少的算力，媲美或超越具有注意力模塊的現(xiàn)有擴(kuò)散模型的圖像生成效果，出色地生成高分辨率圖像。得益于上周的發(fā)布，狀態(tài)空間模型 SSM 正受到越來(lái)越多的關(guān)注。Mamba 的核心在于…

原文鏈接：點(diǎn)此閱讀原文：?丟掉注意力的擴(kuò)散模型：Mamba帶火的SSM被蘋(píng)果、康奈爾盯上了