原作者帶隊(duì),LSTM卷土重來(lái)之Vision-LSTM出世
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:原作者帶隊(duì),LSTM卷土重來(lái)之Vision-LSTM出世
關(guān)鍵字:序列,模型,性能,視覺(jué),補(bǔ)丁
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:鴨梨、蛋醬與 DeiT 等使用 ViT 和 Vision-Mamba (Vim) 方法的模型相比,ViL 的性能更勝一籌。
AI 領(lǐng)域的研究者應(yīng)該還記得,在 Transformer 誕生后的三年,谷歌將這一自然語(yǔ)言處理屆的重要研究擴(kuò)展到了視覺(jué)領(lǐng)域,也就是 Vision Transformer。后來(lái),ViT 被廣泛用作計(jì)算機(jī)視覺(jué)中的通用骨干。
這種跨界,對(duì)于前不久發(fā)布的 xLSTM 來(lái)說(shuō)同樣可以實(shí)現(xiàn)。最近,享譽(yù)數(shù)十年的 LSTM 被擴(kuò)展到一個(gè)可擴(kuò)展且性能良好的架構(gòu) ——xLSTM,通過(guò)指數(shù)門(mén)控和可并行化的矩陣內(nèi)存結(jié)構(gòu)克服了長(zhǎng)期存在的 LSTM 限制。現(xiàn)在,這一成果已經(jīng)擴(kuò)展到視覺(jué)領(lǐng)域。xLSTM和Vision-LSTM 兩項(xiàng)研究均由 LSTM 原作者帶隊(duì),也就是LSTM 的提出者和奠基者Sepp Hochreiter。
在最近的這篇論文中,Sepp Hochreiter 等人推出了 Vision-LSTM(ViL)。ViL 包含一堆 xLSTM 塊,其中奇數(shù)塊從上到下、偶數(shù)塊則從下到上處理補(bǔ)丁 token 序列。論文題目:Vision-LSTM: xLSTM as Ge
原文鏈接:原作者帶隊(duì),LSTM卷土重來(lái)之Vision-LSTM出世
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)