美圖影像研究院(MTLab)聯合北京交通大學提出的超高分辨率摳圖方法。
原標題:AAAI 2025丨2080Ti 也能 4K 圖像摳圖 !美圖&北交大提出超高分辨率自然圖像摳圖算法 MEMatte
文章來源:AI科技評論
內容字數:4824字
美圖研究院與北交大提出高效高分辨率圖像摳圖方法MEMatte
隨著圖像分辨率的提升,對高精度摳圖的需求日益增長。然而,基于Transformer的摳圖方法在處理高分辨率圖像時面臨巨大的顯存壓力。美圖影像研究院(MT Lab)聯合北京交通大學提出了一種名為MEMatte的顯存友好型自然圖像摳圖框架,該框架能夠在顯存受限的設備上高效處理高清圖像的精細摳圖,其研究成果已被AAAI 2025接收。
1. MEMatte的核心創新:雙分支令牌路由設計
MEMatte的核心在于其雙分支令牌路由設計。該設計巧妙地將包含語義信息的令牌送入全局注意力模塊,而將其他令牌送入輕量化令牌提煉模塊(LTRM)進行處理。這種分流并非預設固定比例,而是通過動態路由機制(BATR)自適應地進行調整,從而顯著降低了計算開銷,并在Nvidia GeForce 2080Ti上實現了4K分辨率圖像摳圖。
2. 動態路由機制(BATR)
BATR機制通過局部-全局策略評估令牌重要性,并約束模型預測的批次平均分流比例,從而在訓練過程中實現自適應的令牌分流。這種方法避免了傳統令牌剪枝和融合方法的缺陷,即丟棄重要信息和預設比例不靈活的問題。
3. 輕量化令牌提煉模塊(LTRM)
LTRM由輕量化組件構成,包括映射層、深度卷積(DWC)層和高效通道注意力(ECA)層,分別處理局部空間信息和全局特征信息,進一步提升效率。
4. 超高分辨率自然圖像摳圖數據集UHR-395
為了更好地評估高分辨率摳圖模型,研究團隊還開源了超高分辨率自然圖像摳圖數據集UHR-395。該數據集包含395個前景物體,平均分辨率高達4872×6017,并經過嚴格的審核機制確保數據質量。
5. 實驗結果與性能提升
實驗結果表明,MEMatte在現有基準和UHR-395數據集上均取得了領先的性能,并在域外測試集上展現了良好的泛化能力。與基線方法相比,MEMatte在Composition-1K數據集上節省了約88%的顯存開銷,并降低了約50%的推理時間。
6. MEMatte的優勢總結
MEMatte通過雙分支令牌路由設計和動態路由機制,有效解決了高分辨率圖像摳圖中的顯存瓶頸問題,在保證精度的同時顯著提升了效率。其開源的數據集UHR-395也為高分辨率摳圖研究提供了寶貴的資源,為圖像和視頻處理領域帶來了新的突破。
聯系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。