AAAI 2025丨2080Ti 也能 4K 圖像摳圖 !美圖&北交大提出超高分辨率自然圖像摳圖算法 MEMatte
美圖影像研究院(MTLab)聯(lián)合北京交通大學(xué)提出的超高分辨率摳圖方法。
原標(biāo)題:AAAI 2025丨2080Ti 也能 4K 圖像摳圖 !美圖&北交大提出超高分辨率自然圖像摳圖算法 MEMatte
文章來源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):4824字
美圖研究院與北交大提出高效高分辨率圖像摳圖方法MEMatte
隨著圖像分辨率的提升,對(duì)高精度摳圖的需求日益增長(zhǎng)。然而,基于Transformer的摳圖方法在處理高分辨率圖像時(shí)面臨巨大的顯存壓力。美圖影像研究院(MT Lab)聯(lián)合北京交通大學(xué)提出了一種名為MEMatte的顯存友好型自然圖像摳圖框架,該框架能夠在顯存受限的設(shè)備上高效處理高清圖像的精細(xì)摳圖,其研究成果已被AAAI 2025接收。
1. MEMatte的核心創(chuàng)新:雙分支令牌路由設(shè)計(jì)
MEMatte的核心在于其雙分支令牌路由設(shè)計(jì)。該設(shè)計(jì)巧妙地將包含語義信息的令牌送入全局注意力模塊,而將其他令牌送入輕量化令牌提煉模塊(LTRM)進(jìn)行處理。這種分流并非預(yù)設(shè)固定比例,而是通過動(dòng)態(tài)路由機(jī)制(BATR)自適應(yīng)地進(jìn)行調(diào)整,從而顯著降低了計(jì)算開銷,并在Nvidia GeForce 2080Ti上實(shí)現(xiàn)了4K分辨率圖像摳圖。
2. 動(dòng)態(tài)路由機(jī)制(BATR)
BATR機(jī)制通過局部-全局策略評(píng)估令牌重要性,并約束模型預(yù)測(cè)的批次平均分流比例,從而在訓(xùn)練過程中實(shí)現(xiàn)自適應(yīng)的令牌分流。這種方法避免了傳統(tǒng)令牌剪枝和融合方法的缺陷,即丟棄重要信息和預(yù)設(shè)比例不靈活的問題。
3. 輕量化令牌提煉模塊(LTRM)
LTRM由輕量化組件構(gòu)成,包括映射層、深度卷積(DWC)層和高效通道注意力(ECA)層,分別處理局部空間信息和全局特征信息,進(jìn)一步提升效率。
4. 超高分辨率自然圖像摳圖數(shù)據(jù)集UHR-395
為了更好地評(píng)估高分辨率摳圖模型,研究團(tuán)隊(duì)還開源了超高分辨率自然圖像摳圖數(shù)據(jù)集UHR-395。該數(shù)據(jù)集包含395個(gè)前景物體,平均分辨率高達(dá)4872×6017,并經(jīng)過嚴(yán)格的審核機(jī)制確保數(shù)據(jù)質(zhì)量。
5. 實(shí)驗(yàn)結(jié)果與性能提升
實(shí)驗(yàn)結(jié)果表明,MEMatte在現(xiàn)有基準(zhǔn)和UHR-395數(shù)據(jù)集上均取得了領(lǐng)先的性能,并在域外測(cè)試集上展現(xiàn)了良好的泛化能力。與基線方法相比,MEMatte在Composition-1K數(shù)據(jù)集上節(jié)省了約88%的顯存開銷,并降低了約50%的推理時(shí)間。
6. MEMatte的優(yōu)勢(shì)總結(jié)
MEMatte通過雙分支令牌路由設(shè)計(jì)和動(dòng)態(tài)路由機(jī)制,有效解決了高分辨率圖像摳圖中的顯存瓶頸問題,在保證精度的同時(shí)顯著提升了效率。其開源的數(shù)據(jù)集UHR-395也為高分辨率摳圖研究提供了寶貴的資源,為圖像和視頻處理領(lǐng)域帶來了新的突破。
聯(lián)系作者
文章來源:AI科技評(píng)論
作者微信:
作者簡(jiǎn)介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。