ICLR 2024 Spotlight｜廈門大學(xué)、Intel、大疆聯(lián)合出品，從網(wǎng)絡(luò)視頻中學(xué)習零樣本圖像匹配大模型

AIGC動態(tài)1年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標題：ICLR 2024 Spotlight｜廈門大學(xué)、Intel、大疆聯(lián)合出品，從網(wǎng)絡(luò)視頻中學(xué)習零樣本圖像匹配大模型
關(guān)鍵字：模型,視頻,性能,圖像,數(shù)據(jù)
文章來源：機器之心
內(nèi)容字數(shù)：5706字

內(nèi)容摘要：

機器之心專欄
機器之心編輯部圖像匹配是計算機視覺的一項基礎(chǔ)任務(wù)，其目標在于估計兩張圖像之間的像素對應(yīng)關(guān)系。圖像匹配是眾多視覺應(yīng)用如三維重建、視覺定位和神經(jīng)渲染(neural rendering)等的基礎(chǔ)和前置步驟，其精確度和效率對于后續(xù)處理十分重要。
傳統(tǒng)算法（SIFT）在面臨長基線或極端天氣等復(fù)雜場景時，其匹配的準確度和密度往往有限。為了解決這些問題，近年來，基于深度學(xué)習的匹配模型逐漸流行。然而，由于缺乏大規(guī)模且多樣化的具有真值標簽的訓(xùn)練數(shù)據(jù)，目前的匹配模型通常是在 ScanNet 和 MegaDepth 上分別訓(xùn)練室內(nèi)和室外兩個模型。這種針對特定場景的訓(xùn)練限制了模型對 zero-shot 場景的泛化，無法擴展至未知場景中。此外，現(xiàn)有的數(shù)據(jù)構(gòu)建方法往往依賴于 RGBD 掃描或 SfM+MVS 進行重建，其效率和適用性有限，無法有效地擴展數(shù)據(jù)并用于模型訓(xùn)練。
為了解決基于深度學(xué)習方法泛化性的問題，來自廈門大學(xué)、Intel、大疆的研究者們提出了 GIM: Learning Generalizable Image Matcher from Internet Videos。GIM 是第一個可

原文鏈接：ICLR 2024 Spotlight｜廈門大學(xué)、Intel、大疆聯(lián)合出品，從網(wǎng)絡(luò)視頻中學(xué)習零樣本圖像匹配大模型