ICLR 2024 Spotlight|廈門大學(xué)、Intel、大疆聯(lián)合出品,從網(wǎng)絡(luò)視頻中學(xué)習零樣本圖像匹配大模型
AIGC動態(tài)歡迎閱讀
原標題:ICLR 2024 Spotlight|廈門大學(xué)、Intel、大疆聯(lián)合出品,從網(wǎng)絡(luò)視頻中學(xué)習零樣本圖像匹配大模型
關(guān)鍵字:模型,視頻,性能,圖像,數(shù)據(jù)
文章來源:機器之心
內(nèi)容字數(shù):5706字
內(nèi)容摘要:
機器之心專欄
機器之心編輯部圖像匹配是計算機視覺的一項基礎(chǔ)任務(wù),其目標在于估計兩張圖像之間的像素對應(yīng)關(guān)系。圖像匹配是眾多視覺應(yīng)用如三維重建、視覺定位和神經(jīng)渲染(neural rendering)等的基礎(chǔ)和前置步驟,其精確度和效率對于后續(xù)處理十分重要。
傳統(tǒng)算法(SIFT)在面臨長基線或極端天氣等復(fù)雜場景時,其匹配的準確度和密度往往有限。為了解決這些問題,近年來,基于深度學(xué)習的匹配模型逐漸流行。然而,由于缺乏大規(guī)模且多樣化的具有真值標簽的訓(xùn)練數(shù)據(jù),目前的匹配模型通常是在 ScanNet 和 MegaDepth 上分別訓(xùn)練室內(nèi)和室外兩個模型。這種針對特定場景的訓(xùn)練限制了模型對 zero-shot 場景的泛化,無法擴展至未知場景中。此外,現(xiàn)有的數(shù)據(jù)構(gòu)建方法往往依賴于 RGBD 掃描或 SfM+MVS 進行重建,其效率和適用性有限,無法有效地擴展數(shù)據(jù)并用于模型訓(xùn)練。
為了解決基于深度學(xué)習方法泛化性的問題,來自廈門大學(xué)、Intel、大疆的研究者們提出了 GIM: Learning Generalizable Image Matcher from Internet Videos。GIM 是第一個可
原文鏈接:ICLR 2024 Spotlight|廈門大學(xué)、Intel、大疆聯(lián)合出品,從網(wǎng)絡(luò)視頻中學(xué)習零樣本圖像匹配大模型
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺