一張圖實現街道級定位，端到端圖像地理定位大模型AddressCLIP登ECCV2024

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：一張圖實現街道級定位，端到端圖像地理定位大模型AddressCLIP登ECCV2024
關鍵字：圖像,地址,數據,文本,模型
文章來源：量子位
內容字數：0字

內容摘要：

AddressCLIP項目組投稿量子位 | 公眾號 QbitAI拔草星人的好消息來啦！
中科院自動化所和阿里云一起推出了街景定位大模型，只要一張照片就能實現街道級精度的定位。
有了模型的幫助，再也不用害怕遇到種草“謎語人”了。
比如給模型看一張舊金山的街景之后，它直接給出了具體的拍攝位置，并列舉了附近的多個候選地址。
該模型名為AddressCLIP，基于CLIP構建。?
相關論文AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization已入選頂會ECCV2024。
傳統的圖像位置識別往往致力于以圖像檢索的方式來確定圖像的GPS坐標，這種方法稱為圖像地理定位。
但GPS對于普通人來說晦澀難懂，并且圖像檢索需要建立并維護一個龐大的數據庫，難以本地化部署。
本篇工作提出了更加用戶友好的，端到端的圖像地理定位任務。二者的對比示意圖如下：
針對這個任務，為了實現上述效果，研究人員主要從數據集構建與定制化的模型訓練兩方面入手開展了研究。
圖像地址定位數據集構建圖像地址定位本質上是

原文鏈接：一張圖實現街道級定位，端到端圖像地理定位大模型AddressCLIP登ECCV2024