Booil Jung

Cross-view Matching

컴퓨터 비전 분야는 인간의 시각적 인식 능력을 기계로 구현하려는 목표를 향해 끊임없이 발전해왔다. 이 과정에서 가장 근본적이면서도 도전적인 과제 중 하나는 서로 다른 조건에서 포착된 시각 정보 간의 의미론적 연결고리를 찾는 것이다. ‘Cross-view Matching(Cross-view Matching)’은 이러한 도전의 최전선에 있는 기술로, 서로 다른 플랫폼이나 극단적으로 다른 시점(viewpoint)에서 촬영된 이미지들 속에서 동일한 객체나 장면을 식별하고 대응시키는 컴퓨터 비전의 한 분야이다.1 대표적인 예로, 지상에서 사람이 촬영한 스트리트뷰 이미지와 하늘 위 인공위성이 촬영한 항공 이미지를 매칭하여 “이 사진이 어디에서 촬영되었는가?”라는 질문에 답하는 것을 들 수 있다.

본 보고서에서 다루는 컴퓨터 비전의 ‘Cross-view Matching’은 데이터베이스 분야에서 사용되는 ‘크로스 테이블(Cross Table)’ 5이나 데이터 집합을 연결하는 ‘조인(JOIN)’ 연산 6과는 개념적으로 완전히 구별된다. 후자가 정형화된 데이터 테이블 간의 관계를 정의하는 것이라면, 전자는 비정형 시각 데이터에 내재된 의미적, 기하학적 관계를 이해하려는 시도라는 점에서 본질적인 차이가 있다. 이러한 용어의 명확화는 본 기술의 고유한 특성과 난이도를 이해하는 첫걸음이다.

Cross-view Matching의 기술적 뿌리는 컴퓨터 비전의 가장 근본적인 문제로 알려진 ‘대응점 문제(Correspondence Problem)’에 있다.7 컴퓨터 비전의 선구자 카나데 타케오(Takeo Kanade)가 “컴퓨터 비전의 세 가지 근본적인 문제는 대응, 대응, 그리고 대응이다”라고 언급했을 정도로, 대응점 문제는 3차원 장면을 서로 다른 시점에서 촬영한 두 개 이상의 이미지에서 동일한 지점을 찾아 연결하는 모든 시각 이해 작업의 기초가 된다.7

Cross-view Matching은 이 대응점 문제를 가장 극단적인 시나리오로 확장한 것이다. 일반적인 대응점 문제는 스테레오 비전이나 파노라마 생성처럼 시점 변화가 비교적 작고 제어된 환경을 다루는 경우가 많다. 하지만 Cross-view Matching은 지상 뷰와 항공 뷰처럼 시점이 90도 이상 차이 나고, 원근 왜곡과 객체의 외형이 완전히 달라지는 환경을 다룬다.8 예를 들어, 위성 이미지에서는 건물의 ‘지붕’이 보이지만 지상 이미지에서는 ‘정면’이 보인다. 이처럼 픽셀 수준의 외형은 완전히 다르지만, 인간은 이를 ‘같은 건물’이라는 의미론적(semantic) 정보로 인식한다. 초기 컴퓨터 비전 알고리즘이 이러한 ‘의미론적 격차(semantic gap)’를 극복하지 못했기 때문에, Cross-view Matching은 단순한 특징점 비교를 넘어 장면의 구조와 맥락을 이해하는 방향으로 발전할 수밖에 없었다. 따라서 이 분야의 기술적 진화는 의미론적 격차를 해소하려는 끊임없는 노력의 역사와 같다.

Cross-view Matching의 독창성을 이해하기 위해, 대응점 문제에 기반한 다른 컴퓨터 비전 기술들과 비교 분석하는 것이 유용하다. 스테레오 매칭(Stereo Matching)과 이미지 스티칭(Image Stitching)은 대표적인 관련 기술이지만, 목표와 해결하려는 문제의 성격에서 뚜렷한 차이를 보인다.

표 1: 유사 컴퓨터 비전 기술 비교

기술 (Task) 목표 (Goal) 입력 (Input) 시점 차이 (Viewpoint Difference) 핵심 난제 (Core Challenge)
Cross-view Matching (Cross-view Matching) 서로 다른 플랫폼/시점의 이미지에서 동일 객체/장면 식별 지상 이미지, 항공/위성 이미지 등 이종(heterogeneous) 이미지 쌍 매우 큼 (예: 90도 이상) 극심한 외형 및 기하학적 변환, 의미론적 격차(semantic gap) 극복 8
스테레오 매칭 (Stereo Matching) 정류된(rectified) 이미지 쌍으로부터 깊이(depth) 또는 시차(disparity) 맵 추정 동일 플랫폼에서 촬영된 동종(homogeneous) 이미지 쌍 작고 제어됨 폐색(occlusion), 텍스처가 없는 영역, 반복적인 패턴에서의 정확한 시차 계산 10
이미지 스티칭 (Image Stitching) 여러 장의 겹치는 이미지를 하나의 파노라마 이미지로 합성 일부 겹치는 영역을 가진 동종 이미지 시퀀스 작거나 중간 정도 정확한 이미지 정렬(alignment), 노출 차이 및 시차(parallax)로 인한 블렌딩(blending) 오류 최소화 12

스테레오 매칭은 주로 3D 재구성이나 깊이 인식을 위해 작은 시점 차이를 활용하는 반면, Cross-view Matching은 극심한 시점 차이 자체를 극복해야 하는 과제를 안고 있다.10 이미지 스티칭은 시각적으로 부드러운 파노라마를 만드는 것이 목표이지만, Cross-view Matching은 외형적으로 전혀 다른 두 이미지가 동일한 지리적 실체(geographic entity)를 가리키는지 여부를 판단하는 것이 목표다.7 한편, 일반적인 용어로 사용되는 ‘교차 시야(cross-view)’는 스테레오스코픽 이미지를 3D로 인지하기 위해 두 눈을 교차시키는 인간의 시각 기법을 지칭하는 것으로, 본 보고서에서 다루는 컴퓨터 비전 기술과는 무관하다.14 이처럼 Cross-view Matching은 다른 기술들과 근본적인 문제 의식을 공유하면서도, 훨씬 더 어렵고 비구조적인 조건에서 의미론적 이해를 요구한다는 점에서 독자적인 영역을 구축하고 있다.

딥러닝 기술이 보편화되기 이전, Cross-view Matching을 포함한 이미지 매칭 문제들은 주로 수작업 특징(hand-crafted features)에 기반한 알고리즘으로 해결되었다. 그중 가장 대표적인 것이 SIFT(Scale-Invariant Feature Transform)와 SURF(Speeded-Up Robust Features)이다.15 이 알고리즘들은 이미지의 크기 변화(scale), 회전(rotation), 조명 변화에 강인한 지역 특징점(keypoint)과 이를 설명하는 기술자(descriptor)를 추출하여 매칭의 근거로 삼는다.

이러한 고전적인 방법들은 조명이나 회전 등 일반적인 변환에 대해서는 뛰어난 성능을 보였지만, Cross-view Matching의 근본적인 난제 앞에서는 한계를 드러냈다. 지상 뷰와 항공 뷰 간의 극심한 원근 왜곡과 시점 변화는 SIFT나 SURF가 의존하는 지역적인 그래디언트 패턴과 픽셀 구조를 완전히 바꿔버린다.8 위성 사진 속 건물의 지붕과 지상 사진 속 건물의 벽면은 픽셀 수준에서 어떠한 공통점도 찾기 어렵다. 결국 이 알고리즘들은 ‘의미론적 격차’를 해소하지 못하고, 안정적인 대응점을 찾는 데 실패했다.21 이러한 한계는 단순히 더 강인한 특징점을 찾는 수준을 넘어, 장면의 전체적인 구조와 의미를 이해할 수 있는 새로운 패러다임, 즉 딥러닝 기반 접근법의 등장을 필연적으로 만들었다.22

Cross-view Matching 기술의 수많은 응용 분야 중 가장 활발하게 연구되고 있으며 가장 큰 파급력을 지닌 분야는 단연 ‘크로스뷰 지리적 위치 추정(Cross-View Geo-Localization, CVGL)’이다. CVGL은 자율 시스템의 항법 능력과 직결되는 핵심 기술로, 이 분야의 발전을 견인하는 주요 동력 역할을 하고 있다. 본 장에서는 CVGL의 정의와 중요성을 살펴보고, 자율주행, 로보틱스 등 구체적인 응용 사례를 탐구한 뒤, 이 기술이 극복해야 할 복합적인 난제들을 심층적으로 분석한다.

CVGL은 위치 정보가 없는 쿼리 이미지(query image, 예: 차량의 블랙박스 영상 캡처)가 어디에서 촬영되었는지를, GPS와 같은 지리 정보 태그가 부착된 방대한 참조 이미지 데이터베이스(reference image database, 예: 위성 지도)와 매칭하여 알아내는 작업이다.1 기술적으로 이 과정은 주어진 쿼리 이미지와 가장 유사한 참조 이미지를 데이터베이스에서 찾아내는 이미지 검색(Image Retrieval) 문제로 정의될 수 있다.3

CVGL의 중요성은 현대 자율 시스템이 크게 의존하는 위성 항법 시스템(GNSS/GPS)의 본질적인 한계에서 비롯된다. GNSS 신호는 고층 빌딩이 밀집한 도심 협곡(urban canyon), 터널, 실내, 혹은 짙은 숲 아래에서 신호가 차단되거나 다중 경로 반사(multipath effect)로 인해 심각한 오차를 유발할 수 있다.24 이러한 ‘GPS 음영 지역’에서 자율주행차나 로봇, 무인 항공기(UAV)가 자신의 위치를 잃는 것은 치명적인 사고로 이어질 수 있다. CVGL은 바로 이러한 상황에서 시각 정보만을 이용해 위치를 추정함으로써, GNSS의 보조 수단(supplement) 또는 완전한 대체 수단(replacement)으로서 기능한다.1 이는 자율 시스템의 운행 가능 영역을 확장하고 안전성과 신뢰성을 획기적으로 높이는 데 결정적인 역할을 한다.

CVGL 기술은 높은 정밀도와 강건성이 요구되는 다양한 미래 산업 분야에서 핵심적인 역할을 수행할 것으로 기대된다.

CVGL이 이처럼 유망한 기술임에도 불구하고, 실제 환경에 널리 적용되기까지는 수많은 기술적 난제를 해결해야 한다. 이 난제들은 단일한 문제가 아니라 여러 요인이 복합적으로 얽혀 있어, 단순히 우수한 매칭 알고리즘 하나만으로는 해결이 어렵다. 이는 CVGL이 단순한 알고리즘 수준의 문제를 넘어, 다양한 모듈이 유기적으로 결합된 ‘시스템 수준(system-level)’의 접근이 필요함을 시사한다.

CVGL의 가장 근본적이고 어려운 과제는 지상 뷰와 항공 뷰 사이의 극심한 시점 차이에서 비롯되는 외형 및 기하학적 불일치이다.2 지상에서는 수직으로 보이는 건물의 벽면이 항공 뷰에서는 점이나 면으로 보이고, 도로의 폭이나 건물의 상대적 위치 관계가 완전히 다르게 투영된다. 이러한 차이는 전통적인 특징 기반 매칭을 거의 불가능하게 만들며, 딥러닝 모델에게도 여전히 가장 큰 도전 과제이다.

동일한 장소라 할지라도 촬영 조건에 따라 이미지는 천차만별로 달라질 수 있다.

현실 세계의 장면은 정적이지 않고 복잡한 요소들로 가득 차 있다.

사용 가능한 데이터와 센서의 물리적 한계 또한 중요한 제약 조건이다.

SIFT와 같은 수작업 특징 기반 방법론의 명백한 한계에 직면하면서, CVGL 분야는 2010년대 중반부터 딥러닝을 전면적으로 수용하며 패러다임의 전환을 맞이했다. 이는 단순히 알고리즘을 바꾸는 것을 넘어, 특징을 ‘설계’하는 시대에서 데이터로부터 특징을 ‘학습’하는 시대로의 근본적인 변화였다. 본 장에서는 샴 네트워크를 시작으로 GAN, 그리고 현재 주류로 자리 잡은 트랜스포머에 이르기까지, CVGL을 위한 현대적 딥러닝 접근법의 발전 계보를 추적하고 각 기술의 핵심 원리와 혁신성을 심층적으로 분석한다.

딥러닝 이전의 접근법은 개발자가 직접 특징 추출 방식을 고안하는 특징 공학(feature engineering)에 의존했다. 그러나 이는 극심한 시점 변화에 강인한 특징을 설계하는 데 근본적인 어려움이 있었다. 딥러닝, 특히 컨볼루션 신경망(Convolutional Neural Network, CNN)의 등장은 이러한 판도를 바꾸었다.22 대규모 이미지 데이터셋을 통해 모델이 스스로 데이터에 내재된 패턴을 학습하여, 특정 작업에 최적화된 강력한 특징 표현(feature representation)을 엔드투엔드(end-to-end) 방식으로 추출할 수 있게 된 것이다. Workman과 Jacobs가 AlexNet을 CVGL에 처음 도입한 연구는 딥러닝 특징이 기존의 수작업 특징보다 월등한 성능을 보임을 입증하며 새로운 시대의 서막을 열었다.32 이후 CVGL 연구는 샴 네트워크, 삼중항 손실 등 다양한 딥러닝 아키텍처와 학습 기법을 탐구하는 방향으로 빠르게 전개되었다.

딥러닝 기반 CVGL의 초기 모델들은 대부분 샴 네트워크 구조를 채택했다.

샴 네트워크가 임베딩 공간에서의 ‘거리’를 학습하는 간접적인 방식으로 시점 차이를 극복하려 했다면, 생성적 적대 신경망(Generative Adversarial Network, GAN)은 더 직접적인 해법을 제시했다. GAN은 지상 뷰와 항공 뷰 사이의 극심한 ‘도메인 격차(domain gap)’ 자체를 줄이는 것을 목표로 한다.23

CVGL 연구의 흐름은 암시적 거리 학습(샴 네트워크)에서 명시적 시점 변환(GAN)으로, 그리고 다시 더 강력한 암시적 학습 모델인 트랜스포머로 이동하는 흥미로운 궤적을 보인다. 이는 명시적인 기하학적 사전 지식을 주입하려는 시도와, 데이터로부터 복잡한 관계를 스스로 학습하게 하려는 시도 사이의 ‘밀고 당기기’ 과정으로 해석될 수 있다. 결국, 충분히 강력한 모델이 데이터로부터 직접 기하학을 학습하는 것이 수작업으로 기하학을 설계하는 것보다 더 효과적이라는 방향으로 수렴하고 있으며, 트랜스포머는 그 중심에 있다.

트랜스포머의 부상을 이해하기 위해서는 기존 CNN 기반 모델의 근본적인 한계를 먼저 살펴봐야 한다. CNN의 핵심 연산인 컨볼루션(convolution)은 본질적으로 지역적(local)이다. 즉, 작은 필터(커널)를 이미지 전체에 이동시키며 특징을 추출하기 때문에, 이미지의 전역적인 구조나 멀리 떨어진 픽셀 간의 상관관계를 파악하는 데 구조적인 한계가 있다.38

이러한 한계를 보완하기 위해, 많은 CNN 기반 모델들은 ‘극좌표 변환(Polar Transform)’이라는 영리한 전처리 기법에 의존했다.9 이는 항공 이미지를 극좌표계로 변환하여, 항공 이미지 중심의 동심원을 지상 파노라마 이미지의 수평선처럼 펼쳐주는 기하학적 변환이다.30 이를 통해 두 이미지의 기하학적 레이아웃을 인위적으로 유사하게 만들어 CNN이 매칭하기 쉽게 만들어주었다.23 SAFA와 같은 모델들이 이 기법을 사용하여 큰 성능 향상을 이루었다.24 하지만 이 방법은 지상-항공 이미지 간의 기하학적 대응 관계에 대한 강한 가정을 전제로 하며, 지상 이미지가 정확히 항공 이미지의 중앙에 위치하지 않거나, 조명 조건이 크게 다를 경우 변환이 왜곡되어 성능이 저하되는 명백한 한계를 가졌다.23

자연어 처리 분야에서 시작된 트랜스포머는 비전 분야로 넘어오면서 CVGL의 난제들을 해결할 새로운 가능성을 제시했다.

TransGeo의 성공은 단순히 트랜스포머를 적용한 것을 넘어, 그 구조적 유연성을 극대화한 혁신적인 학습 전략에 기인한다. ‘Attend and Zoom-in’으로 명명된 이 전략은 계산 효율성이라는 새로운 경쟁의 장을 열었다.38 초기 CVGL 연구가 주로 정확도(recall@k) 향상에만 집중했다면, TransGeo는 제한된 계산 예산 내에서 어떻게 성능을 극대화할 것인가라는 실용적인 질문에 답한다.

이 전략은 두 단계로 구성된다 38:

  1. 1단계 (Attend - 집중): 먼저, 전체 이미지를 저해상도로 처리하여 트랜스포머를 통과시킨다. 그리고 모델 내부의 어텐션 맵을 분석하여 어떤 이미지 패치들이 매칭에 중요한 정보(informative patches)를 담고 있고, 어떤 패치들이 불필요한 정보(예: 하늘, 가려진 영역)를 담고 있는지 식별한다.
  2. 2단계 (Zoom-in - 확대): 다음 학습 단계에서는 정보량이 적다고 판단된 패치들을 과감히 버린다(non-uniform cropping). 그리고 여기서 절약된 계산 자원(GPU 메모리, 연산 시간)을 정보량이 많다고 판단된 핵심 패치들의 해상도를 높이는 데 집중적으로 재할당한다.

이 “집중하고 확대하는” 방식은 마치 인간이 중요한 단서를 찾기 위해 특정 부분을 자세히 들여다보는 시각적 주의(visual attention) 과정과 매우 유사하다. 이는 추가적인 계산 비용 없이, 혹은 오히려 비용을 줄이면서도 모델의 성능을 향상시키는 매우 효율적인 혁신이다.37 이처럼 효율성을 새로운 혁신의 척도로 제시한 것은, CVGL 연구가 학술적인 정확도 경쟁을 넘어 실제 차량의 ECU나 모바일 기기와 같은 자원 제약적인 환경에 탑재되기 위한 실용적인 단계로 나아가고 있음을 보여주는 중요한 신호다.

표 2: CVGL을 위한 딥러닝 접근법 비교 분석

접근법 (Approach) 핵심 원리 (Core Principle) 시점 차이 해결 방식 (Handling of Viewpoint Gap) 주요 강점 (Key Strengths) 한계 (Limitations) 대표 모델 (Representative Models)
샴 네트워크 (Siamese CNNs) 거리 학습(Metric Learning)을 통해 특징 공간에서 유사/비유사 이미지 쌍의 거리를 조절 임베딩 공간 학습을 통한 암시적(implicit) 해결 개념이 간단하고, Few-shot learning에 효과적. 삼중항 손실 등으로 안정적인 학습 가능. 시점 변환이 극심할 때 특징 표현력에 한계. 전역적 문맥 파악 능력 부족. CVM-Net 37, Vo & Hays 32
GAN 기반 방법 (GAN-based Methods) 생성적 적대 신경망을 이용해 한쪽 뷰 이미지를 다른 쪽 뷰 스타일로 변환 이미지 도메인 변환을 통한 명시적(explicit) 해결 시각적으로 인상적인 시점 변환 가능. 도메인 격차를 직접적으로 줄임. 학습 불안정, 모델 붕괴(model collapse) 위험, 높은 계산 비용. 23 CDtE 9, Regmi et al. 34
트랜스포머 기반 방법 (Transformer-based Methods) 셀프 어텐션과 위치 인코딩으로 전역적 문맥과 기하학적 관계를 데이터로부터 직접 학습 전역적 문맥 및 위치 정보 학습을 통한 강력한 암시적(implicit) 해결 전역적 정보 모델링에 탁월. 극좌표 변환 등 외부 전처리 불필요. 높은 성능과 효율성. 대규모 데이터셋 학습이 필요할 수 있음. L2LTR 39, TransGeo 38, Cross-view Transformer 41

크로스뷰 지리적 위치 추정(CVGL)이 Cross-view Matching 연구를 주도하는 핵심 동력이지만, 이 기술의 적용 범위는 훨씬 더 넓다. 서로 다른 시점에서 포착된 시각 정보를 연결하는 능력은 보안, 감시, 엔터테인먼트 등 다양한 분야에서 새로운 가능성을 열어준다. 본 장에서는 CVGL 외에 Cross-view Matching이 핵심적인 역할을 하는 두 가지 주요 응용 분야, 즉 ‘사람 재식별(Person Re-Identification)’과 ‘증강현실(Augmented Reality)’에 대해 심도 있게 탐색한다.

사람 재식별(Person Re-ID)은 CCTV와 같이 서로 겹치지 않는 여러 카메라 뷰에 등장하는 동일 인물을 식별해내는 기술이다.44 이는 본질적으로 서로 다른 카메라라는 ‘교차 시점(cross-view)’에서 촬영된 사람 이미지를 매칭하는 문제로, 공공 안전, 실종자 수색, 지능형 교통 시스템 등에서 매우 중요하다. Re-ID 시스템은 조명 변화, 다양한 신체 자세, 시점 변화, 다른 물체에 의한 가림 등 수많은 현실적인 어려움을 극복하고 동일인의 정체성(identity)을 강건하게 유지해야 한다.46

Re-ID의 난이도는 데이터가 수집되는 환경과 센서의 종류에 따라 더욱 복잡해진다.

이러한 도전 과제들을 해결하기 위해 Re-ID 분야에서는 다양한 딥러닝 기술이 연구되고 있다.

증강현실(AR)은 현실 세계 위에 가상의 디지털 정보를 겹쳐 보여주는 기술이다. 몰입감 있는 AR 경험의 핵심은 가상 객체가 마치 실제 세계의 일부인 것처럼 정확한 위치와 방향으로 안정적으로 고정되는 것이다. 특히 건물이나 도시 전체를 무대로 하는 대규모 실외 AR에서는 사용자의 디바이스(스마트폰, AR 글래스)가 지구상의 어디에 있으며 어느 방향을 바라보고 있는지를 밀리미터 단위로 정밀하게 아는 것이 필수적이다.28

이때 Cross-view Matching, 특히 CVGL 기술은 가상 세계와 현실 세계를 연결하는 ‘닻(anchor)’과 같은 역할을 수행한다.

결론적으로, AR 분야에서 CVGL은 단순히 또 하나의 위치 추정 기술이 아니다. 이는 대규모의 영속적인(persistent) AR 경험, 즉 현실 세계와 디지털 세계가 완벽하게 융합된 ‘메타버스’를 구현하기 위한 가장 근본적인 기반 기술 중 하나이다. CVGL이 제공하는 이 강력한 ‘전역 앵커’ 없이는, 도시 전체를 캔버스 삼아 펼쳐지는 미래의 AR 애플리케이션은 실현되기 어렵다.

Cross-view Matching 분야는 인공지능 기술의 급속한 발전과 함께 역동적으로 진화하고 있다. 특히 CVPR, ECCV 등 최고 권위의 컴퓨터 비전 학회에서 발표되는 연구들은 이 분야의 미래를 가늠할 중요한 지표가 된다. 2024년을 기점으로 최신 연구들은 단일 이미지 매칭이라는 기존의 틀을 넘어 비디오, 이미지 세트, 심지어 자연어와 같은 새로운 차원으로 문제의 범위를 확장하고 있다. 본 장에서는 이러한 최신 연구 동향을 분석하고, 이를 바탕으로 Cross-view Matching 기술의 미래 과제와 연구 방향을 조망한다.

기존의 CVGL 연구는 대부분 단일 쿼리 이미지를 데이터베이스와 매칭하는 정적인 문제에 집중해왔다. 그러나 자율주행차나 로봇이 실제로 경험하는 세계는 정지된 스냅샷이 아닌, 연속적인 이미지 스트림, 즉 비디오이다.21 이 연속적인 데이터에는 개별 이미지에는 없는 풍부한 시간적, 공간적 맥락이 담겨 있으며, 이를 활용하는 것은 CVGL의 성능과 강건성을 한 단계 끌어올릴 잠재력을 지닌다. 이러한 문제의식은 연구 패러다임을 ‘인식(perception)’에서 ‘인지(cognition)’로 전환시키고 있다. 즉, 단순히 시각 패턴을 매칭하는 것을 넘어, 시간적 일관성과 공간적 맥락을 ‘추론(reasoning)’하는 방향으로 나아가고 있는 것이다.

2024년 유럽 컴퓨터 비전 학회(ECCV)에서 발표된 GAReT(Geolocalization with Adapters and Auto-Regressive Transformers) 모델은 이러한 흐름을 대표하는 최신 연구다.52 GAReT은 교차 시점 ‘비디오’ 지리적 위치 추정을 위한 완전 트랜스포머 기반 모델로, 기존 방법들이 가진 여러 문제점을 해결하고자 한다. 기존 비디오 기반 방법들은 종종 카메라의 내부 파라미터나 주행 기록계(odometry) 데이터와 같은 추가 정보에 의존했으며, 각 비디오 프레임을 독립적으로 예측하여 시간적으로 튀거나 일관되지 않은 GPS 궤적을 생성하는 한계가 있었다.52

GAReT은 다음과 같은 두 가지 혁신적인 모듈로 이 문제를 해결한다 53:

비디오가 ‘순서가 있는’ 연속적인 데이터라면, ‘순서가 없는’ 이미지 집합을 활용하려는 시도도 등장했다. Set-CVGL(Cross-View Image Set Geo-Localization)은 인간이 낯선 곳에서 자신의 위치를 파악할 때, 한 방향만 보는 것이 아니라 주변을 둘러보거나 몇 걸음 움직여 여러 각도에서 정보를 수집하는 행동에서 영감을 얻은 새로운 태스크다.26

연구의 지평은 시각 정보를 넘어 언어의 영역으로까지 확장되고 있다. 최근 제안된 ‘텍스트 기반 지리적 위치 추정’은 이미지 쿼리 대신, “파란 지붕 집 옆 사거리”와 같은 자연어 묘사(natural language description)를 입력받아 해당하는 위치의 위성 이미지나 지도 데이터를 검색하는 혁신적인 패러다임이다.56

이 기술은 보행자 내비게이션이나 긴급 구조 요청과 같이 시각적 정보가 불완전하거나 없는 상황에서 엄청난 잠재력을 가진다. 예를 들어, 조난자가 전화로 주변 지형지물을 묘사하면 구조대가 그 위치를 위성 지도로 즉시 파악할 수 있다. 이 과제를 해결하기 위해서는 대규모 언어 모델(LLM)을 활용하여 고품질의 장면 묘사 텍스트를 생성하는 기술과, 이 텍스트 임베딩과 이미지 임베딩을 효과적으로 매칭하는 CrossText2Loc과 같은 멀티모달 모델 개발이 핵심적인 연구 주제로 부상하고 있다.56

Cross-view Matching의 개념은 2D 이미지 검색을 넘어, 3D 구조를 이해하고 생성하는 더 복잡한 비전 태스크의 핵심적인 학습 신호(supervisory signal)로도 활용되고 있다. 2024년 CVPR에서 발표된 한 연구는 3D 인간 이해를 위해 교차 시점(스테레오 카메라 쌍)과 교차 자세(비디오 속 시간적으로 인접한 프레임 쌍) 정보를 활용하는 자기 지도 학습(self-supervised learning) 방법을 제안했다.57

이 방법의 핵심 원리는 한쪽 뷰의 이미지 일부를 가리고(masking), 다른 쪽 뷰의 이미지를 힌트로 삼아 가려진 부분을 복원하도록 모델을 학습시키는 것이다.57 이 과정에서 모델은 명시적인 3D 레이블 없이도, 서로 다른 뷰 사이의 일관성(consistency)을 유지하기 위해 자연스럽게 3D 구조와 인간의 움직임에 대한 강력한 사전 지식(prior)을 학습하게 된다. 이는 대규모의 레이블링된 데이터셋 구축이 어려운 많은 분야에서 ‘자기 지도 학습’이 얼마나 강력한 대안이 될 수 있는지를 보여준다. CVGL 분야에서도, 정확한 GPS 태그가 없는 방대한 양의 스트리트뷰 비디오와 위성 이미지를 활용하여, 시간적/공간적 일관성을 자기 지도 신호로 삼아 모델을 사전 학습시키는 방식이 미래의 확장성과 일반화 성능을 확보하는 핵심 전략이 될 것이다.

지금까지의 분석을 종합하면, Cross-view Matching 연구는 단일 이미지에서 비디오/이미지 세트로, 이미지 쿼리에서 텍스트 쿼리로, 그리고 2D 위치 추정에서 3D 구조 이해로 그 범위를 빠르게 확장하고 있다.26 이러한 흐름 속에서 미래 연구는 다음과 같은 방향으로 심화될 것으로 전망된다.

결론적으로, Cross-view Matching 기술은 정적인 이미지 검색 문제를 넘어, 동적인 세계를 이해하고 추론하며 상호작용하는 지능형 시스템의 핵심 시각 능력으로 진화하고 있다. 앞으로 이 기술은 자율 시스템의 눈이 되어 미지의 환경을 항해하고, 증강현실을 통해 우리의 현실 인식을 확장하며, 수많은 데이터를 연결하여 새로운 가치를 창출하는 데 결정적인 역할을 수행할 것이다.

  1. Cross-View Matching for Vehicle Localization by Learning …, accessed July 1, 2025, https://www.researchgate.net/publication/355657390_Cross-View_Matching_for_Vehicle_Localization_by_Learning_Geographically_Local_Representations
  2. A Faster and More Effective Cross-View Matching Method of UAV and Satellite Images for UAV Geolocalization - MDPI, accessed July 1, 2025, https://www.mdpi.com/2072-4292/13/19/3979
  3. A Part-aware Attention Neural Network for Cross-view Geo-localization between UAV and Satellite, accessed July 1, 2025, https://alife-robotics.org/article/vol9issue3/9311.pdf
  4. Full article: Multi-level representation learning via ConvNeXt-based network for unaligned cross-view matching, accessed July 1, 2025, https://www.tandfonline.com/doi/full/10.1080/10095020.2024.2439385
  5. 크로스 테이블 행별 총합계 표시, accessed July 1, 2025, https://docs.tibco.com/pub/sfire-cloud/14.4.0/doc/html/ko-KR/TIB_sfire_client/client/topics/ko-KR/displaying_grand_totals_for_rows_in_cross_tables.html
  6. [SQL] 조인 개념 및 크로스 조인/ 내부 조인/ 외부 및 셀프 조인 - 착해지는 중 입니다., accessed July 1, 2025, https://come-alive.tistory.com/29
  7. Correspondence problem - Wikipedia, accessed July 1, 2025, https://en.wikipedia.org/wiki/Correspondence_problem
  8. Semantic Cross-View Matching - Stanford Computational Vision and Geometry Lab, accessed July 1, 2025, https://cvgl.stanford.edu/papers/castaldo_iccv15.pdf
  9. A Cross-View Image Matching Method with Feature Enhancement - MDPI, accessed July 1, 2025, https://www.mdpi.com/2072-4292/15/8/2083
  10. Learning Intra-view and Cross-view Geometric Knowledge for Stereo Matching - CVF Open Access, accessed July 1, 2025, https://openaccess.thecvf.com/content/CVPR2024/papers/Gong_Learning_Intra-view_and_Cross-view_Geometric_Knowledge_for_Stereo_Matching_CVPR_2024_paper.pdf
  11. Is there a difference between Image Alignment and Stereo Rectification for stereo correspondence or matching? - Signal Processing Stack Exchange, accessed July 1, 2025, https://dsp.stackexchange.com/questions/25995/is-there-a-difference-between-image-alignment-and-stereo-rectification-for-stere
  12. Image Alignment and Stitching: A Tutorial1 - Washington, accessed July 1, 2025, https://courses.cs.washington.edu/courses/cse576/05sp/papers/MSR-TR-2004-92.pdf
  13. Image Alignment and Stitching: A Tutorial - cs.wisc.edu, accessed July 1, 2025, https://pages.cs.wisc.edu/~dyer/cs534/papers/szeliski-alignment-tutorial.pdf
  14. What’s the difference between parallel view and cross view? : r/ParallelView - Reddit, accessed July 1, 2025, https://www.reddit.com/r/ParallelView/comments/1glxdam/whats_the_difference_between_parallel_view_and/
  15. velog.io, accessed July 1, 2025, https://velog.io/@checking_pks/SURF-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98#:~:text=SURF%20%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98%EC%9D%B4%EB%9E%80%3F,-Speeded%2DUp%20Robust&text=%ED%8A%B9%EC%A7%95%EC%A0%90%EC%9D%84%20%ED%86%B5%ED%95%98%EC%97%AC%20%EB%8F%99%EC%9D%BC%ED%95%9C%20%EC%9E%A5%EB%A9%B4,%EB%B9%A0%EB%A5%B8%20%EC%84%B1%EB%8A%A5%EC%9D%98%20%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98%EC%9E%85%EB%8B%88%EB%8B%A4.
  16. OpenCV 4로 배우는 컴퓨터 비전과 머신 러닝: 14.2.1 크기 불변 특징점 알고리즘 - 3, accessed July 1, 2025, https://thebook.io/006939/0595/
  17. Keypoint Detector : SIFT & SURF Algorithm 비교 - velog, accessed July 1, 2025, https://velog.io/@yyk9612/Keypoint-Detector-SIFT-SURF-Algorithm-%EB%B9%84%EA%B5%90
  18. [CV] Scale Invariant Feature Transform (SIFT) : 영상의 스케일에 불변한 Feature, accessed July 1, 2025, https://mvje.tistory.com/79
  19. [OpenCV] SURF 알고리즘, accessed July 1, 2025, https://velog.io/@checking_pks/SURF-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98
  20. [Computer Vision / Image Precessing] SURF (Speeded-Up Robust Features) - 주머니 속 메모장 - 티스토리, accessed July 1, 2025, https://alex-an0207.tistory.com/165
  21. Leveraging cross-view geo-localization with ensemble learning and temporal awareness PLOS One, accessed July 1, 2025, https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0283672
  22. (PDF) Cross-View Geo-Localization: A Survey - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/386207589_Cross-view_Geo-localization_A_Survey
  23. GeoViewMatch: A Multi-Scale Feature-Matching Network for Cross-View Geo-Localization Using Swin-Transformer and Contrastive Learning - MDPI, accessed July 1, 2025, https://www.mdpi.com/2072-4292/16/4/678
  24. Cross-View Matching for Vehicle Localization by Learning Geographically Local Representations, accessed July 1, 2025, https://intelligent-vehicles.org/wp-content/uploads/2022/03/XiaRAL2021_Cross-view-geographic-local.pdf
  25. A Cross-View Geo-Localization Algorithm Using UAV Image and Satellite Image - MDPI, accessed July 1, 2025, https://www.mdpi.com/1424-8220/24/12/3719
  26. Cross-View Image Set Geo-Localization - arXiv, accessed July 1, 2025, https://arxiv.org/html/2412.18852v1
  27. Cross-view geo-localization: a survey - arXiv, accessed July 1, 2025, https://arxiv.org/html/2406.09722v1
  28. Cross-View Visual Geo-Localization for Outdoor Augmented Reality - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/369592227_Cross-View_Visual_Geo-Localization_for_Outdoor_Augmented_Reality
  29. [2303.15676] Cross-View Visual Geo-Localization for Outdoor Augmented Reality - arXiv, accessed July 1, 2025, https://arxiv.org/abs/2303.15676
  30. Feature Relation Guided Cross-View Image Based Geo-Localization - MDPI, accessed July 1, 2025, https://www.mdpi.com/2072-4292/15/20/5029
  31. ArcGeo: Localizing Limited Field-of-View Images using Cross-view Matching Request PDF, accessed July 1, 2025, https://www.researchgate.net/publication/379703471_ArcGeo_Localizing_Limited_Field-of-View_Images_using_Cross-view_Matching
  32. Where Am I Looking At? Joint Location and Orientation Estimation by Cross-View Matching - CVF Open Access, accessed July 1, 2025, https://openaccess.thecvf.com/content_CVPR_2020/papers/Shi_Where_Am_I_Looking_At_Joint_Location_and_Orientation_Estimation_CVPR_2020_paper.pdf
  33. TransGeo: Transformer Is All You Need for Cross-view Image Geo-localization Request PDF - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/363906289_TransGeo_Transformer_Is_All_You_Need_for_Cross-view_Image_Geo-localization
  34. Cross-View Image Sequence Geo-Localization - CVF Open Access, accessed July 1, 2025, https://openaccess.thecvf.com/content/WACV2023/papers/Zhang_Cross-View_Image_Sequence_Geo-Localization_WACV_2023_paper.pdf
  35. Cross-Modality Person Re-Identification With Shared-Specific Feature Transfer - CVF Open Access, accessed July 1, 2025, https://openaccess.thecvf.com/content_CVPR_2020/papers/Lu_Cross-Modality_Person_Re-Identification_With_Shared-Specific_Feature_Transfer_CVPR_2020_paper.pdf
  36. Siamese Neural Networks (샴 네트워크) 개념 이해하기 - tyami’s study blog, accessed July 1, 2025, https://tyami.github.io/deep%20learning/Siamese-neural-networks/
  37. TransGeo: Transformer Is All You Need for Cross-view Image Geo-localization Request PDF - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/359709594_TransGeo_Transformer_Is_All_You_Need_for_Cross-view_Image_Geo-localization
  38. TransGeo: Transformer Is All You Need for Cross-View Image Geo-Localization - CVF Open Access, accessed July 1, 2025, https://openaccess.thecvf.com/content/CVPR2022/papers/Zhu_TransGeo_Transformer_Is_All_You_Need_for_Cross-View_Image_Geo-Localization_CVPR_2022_paper.pdf
  39. Cross-view Geo-localization with Layer-to-Layer Transformer, accessed July 1, 2025, https://proceedings.neurips.cc/paper/2021/file/f31b20466ae89669f9741e047487eb37-Paper.pdf
  40. [2107.00842] Cross-view Geo-localization with Evolving Transformer - arXiv, accessed July 1, 2025, https://arxiv.org/abs/2107.00842
  41. Cross-View Transformers for Real-Time Map-View Semantic Segmentation - CVF Open Access, accessed July 1, 2025, https://openaccess.thecvf.com/content/CVPR2022/papers/Zhou_Cross-View_Transformers_for_Real-Time_Map-View_Semantic_Segmentation_CVPR_2022_paper.pdf
  42. Cross-view Transformers for real-time Map-view Semantic Segmentation - arXiv, accessed July 1, 2025, https://arxiv.org/abs/2205.02833
  43. [2204.00097] TransGeo: Transformer Is All You Need for Cross-view Image Geo-localization, accessed July 1, 2025, https://arxiv.org/abs/2204.00097
  44. Person Re-Identification Papers With Code, accessed July 1, 2025, https://paperswithcode.com/task/person-re-identification
  45. Cross-Domain Person Re-Identification Based on Feature Fusion Invariance - MDPI, accessed July 1, 2025, https://www.mdpi.com/2076-3417/14/11/4644
  46. Learning Cross-View Binary Identities for Fast Person Re-Identification - IJCAI, accessed July 1, 2025, https://www.ijcai.org/Proceedings/16/Papers/342.pdf
  47. Cross-Modality Person Re-Identification Based on Heterogeneous Center Loss and Non-Local Features - PubMed Central, accessed July 1, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC8304692/
  48. [1801.01760] Crossing Generative Adversarial Networks for Cross-View Person Re-identification - arXiv, accessed July 1, 2025, https://arxiv.org/abs/1801.01760
  49. [2105.11722] Deep High-Resolution Representation Learning for Cross-Resolution Person Re-identification - arXiv, accessed July 1, 2025, https://arxiv.org/abs/2105.11722
  50. Cross-View Visual Geo-Localization for Outdoor Augmented Reality - Niluthpol Chowdhury Mithun, accessed July 1, 2025, https://niluthpol.github.io/Niluthpol_Mithun_Files/Ground_to_Aerial_GeoLocalization_VR.pdf
  51. Cross-View Outdoor Localization in Augmented Reality by Fusing Map and Satellite Data, accessed July 1, 2025, https://www.mdpi.com/2076-3417/13/20/11215
  52. arxiv.org, accessed July 1, 2025, https://arxiv.org/abs/2408.02840
  53. GAReT: Cross-view Video Geolocalization with Adapters and Auto-Regressive Transformers - ECVA European Computer Vision Association, accessed July 1, 2025, https://www.ecva.net/papers/eccv_2024/papers_ECCV/html/7875_ECCV_2024_paper.php
  54. ECCV Poster GAReT: Cross-view Video Geolocalization with Adapters and Auto-Regressive Transformers, accessed July 1, 2025, https://eccv.ecva.net/virtual/2024/poster/2461
  55. The official implementation of “GAReT: Cross-view Video Geolocalization with Adapters and Auto-Regressive Transformers” [European Conference on Computer Vision (ECCV) 2024] - GitHub, accessed July 1, 2025, https://github.com/manupillai308/GAReT
  56. Where am I? Cross-View Geo-localization with Natural Language Descriptions - arXiv, accessed July 1, 2025, https://arxiv.org/html/2412.17007v1

CVPR 2024 Open Access Repository, accessed July 1, 2025, https://openaccess.thecvf.com/content/CVPR2024/html/Armando_Cross-view_and_Cross-pose_Completion_for_3D_Human_Understanding_CVPR_2024_paper.html