Booil Jung

항공 이미지 매칭을 통한 지리적 위치 추정(Geo-localization)

이미지 기반 지리적 위치 추정(Image-Based Geo-localization)은 주어진 한 장의 이미지 또는 비디오 프레임에 포함된 시각적 단서만을 활용하여, 해당 이미지가 촬영된 실제 세계의 지리적 좌표(일반적으로 위도와 경도)를 추정하는 기술 분야를 지칭한다.1 이 기술의 근본적인 필요성은 현대 사회의 핵심 인프라인 위성 항법 시스템(GNSS), 특히 GPS가 완벽하지 않다는 현실에서 출발한다. 고층 빌딩이 밀집한 도심 협곡, 실내 공간, 터널, 혹은 의도적인 신호 교란이 발생하는 환경에서는 GPS 신호가 약화되거나 수신이 불가능해진다.3 이러한 ‘GNSS-denied’ 환경에서 자율 주행 자동차, 로봇, 드론과 같은 자율 시스템이 자신의 위치를 지속적이고 정확하게 인식하기 위해서는 GPS를 대체하거나 보완할 수 있는 강인한 위치 결정 수단이 필수적이다. 이미지 기반 위치 추정은 카메라라는 저렴하고 보편적인 센서를 사용하여 이러한 공백을 메울 수 있는 가장 유력한 대안으로 부상하였다.7

문제의 본질은 정보 검색(Information Retrieval)의 한 형태로 정의될 수 있다. 즉, 위치를 알 수 없는 새로운 이미지(Query Image)가 입력되었을 때, 사전에 구축된 방대한 양의 지리 정보 태그(Geo-tag)가 부착된 참조 이미지 데이터베이스(Reference Database) 내에서 이와 가장 유사한 이미지를 검색하고, 검색된 참조 이미지의 지리적 좌표를 쿼리 이미지의 위치로 부여하는 과정이다.2 이 과정은 크게 두 단계로 나뉜다. 첫 번째는 대규모 데이터베이스에서 후보군을 빠르게 추려내는 ‘대략적 탐색(Coarse Search)’ 단계이며, 두 번째는 각 후보에 대해 정밀한 기하학적 검증을 수행하여 최종 위치와 자세(Pose)를 결정하는 ‘정밀 정렬(Fine Alignment)’ 단계이다.2

초기의 이미지 기반 위치 추정 연구는 대부분 동일 시점(Same-view), 즉 지상에서 촬영된 쿼리 이미지를 지상에서 촬영된 참조 이미지 데이터베이스와 비교하는 방식에 집중하였다.8 그러나 이러한 접근 방식은 실용적인 측면에서 근본적인 확장성의 한계에 직면했다. 전 세계의 모든 도로와 장소를 지상 뷰 이미지로 커버하고, 계절, 시간, 환경 변화에 따라 지속적으로 최신 상태를 유지하는 것은 천문학적인 비용과 노력을 요구한다.2

이러한 배경 속에서 ‘교차 시점 지리적 위치 추정(Cross-View Geo-Localization, CVGL)’이라는 새로운 패러다임이 부상하였다. CVGL은 지상 뷰(Street/Ground View) 이미지를 쿼리로 사용하여, 전혀 다른 시점인 항공 또는 위성 뷰(Aerial/Overhead View)의 이미지 데이터베이스와 매칭하는, 보다 도전적인 문제로 정의된다.8 CVGL의 부상은 단순히 새로운 알고리즘의 등장이 아니라, 데이터 가용성과 확장성이라는 현실적인 제약 조건이 기술 발전을 견인한 대표적인 사례이다. 지상-지상 매칭 방식의 본질적인 확장성 한계가 항공-지상 매칭이라는 새로운 패러다임을 필연적으로 만들었다. Google Maps, Bing Maps 등 공개적으로 접근 가능한 고해상도 항공/위성 이미지가 전 세계를 대상으로 광범위하게 제공되면서, 참조 데이터베이스 구축의 난이도가 획기적으로 낮아졌기 때문이다.4 즉, CVGL은 극심한 시점 차이라는 기술적 난제를 감수하는 대신, 월등한 데이터 접근성과 확장성을 확보하려는 전략적 선택의 산물이며, 이 분야 연구의 핵심 동기를 제공한다.2

CVGL 기술은 다양한 미래 산업의 핵심 기반 기술로서 중요한 역할을 수행한다.

지상 뷰와 항공 뷰 이미지를 매칭하는 과정은 인간에게는 직관적으로 가능할지 모르나, 컴퓨터 비전 알고리즘에게는 극도로 어려운 문제이다. 이러한 어려움은 두 이미지 도메인 간의 근본적인 ‘도메인 격차(Domain Gap)’에서 비롯되며, 이는 기하학적, 광도적, 내용적 측면에서 다층적으로 나타난다.12 성공적인 CVGL 솔루션은 이 세 가지 측면의 격차를 모두 효과적으로 극복해야 한다.

가장 근본적인 난제는 두 이미지 뷰 간의 기하학적 불일치이다. 지상 이미지는 지표면과 거의 평행한 시점에서 촬영되어 원근 투영(Perspective Projection)의 영향을 크게 받는다. 이로 인해 건물은 정면, 측면 등의 입면이 보이고, 멀리 있는 객체는 작게 보인다.12 반면, 항공 및 위성 이미지는 지표면을 수직으로 내려다보는 조감도(Bird’s-eye View) 시점에서 촬영되며, 일반적으로 지형의 왜곡을 보정한 정사영상(Orthophoto) 형태로 제공된다. 이 시점에서는 건물의 옥상과 도로의 평면적 배치만이 보인다.9

이처럼 동일한 3차원 공간이 두 개의 전혀 다른 2차원 평면에 투영되기 때문에, 전통적인 특징점(예: SIFT, ORB) 기반의 매칭 알고리즘은 대응점을 거의 찾지 못하고 실패하게 된다. 이 기하학적 도메인 격차는 CVGL을 동일 시점 이미지 매칭 문제와 근본적으로 구별 짓는 가장 큰 특징이다.12

기하학적 구조가 일치하더라도, 이미지의 픽셀 값 자체, 즉 외형(Appearance)이 크게 달라 매칭을 어렵게 만든다. 이는 광도적(Photometric) 격차를 유발한다.

마지막으로, 두 이미지에 담긴 내용(Content)의 불일치 문제이다.

딥러닝 기술이 보편화되기 이전, 연구자들은 CVGL의 복잡한 문제를 해결하기 위해 ‘문제의 분해(Problem Decomposition)’ 전략을 사용했다. 이는 어려운 종단간(end-to-end) 시각적 매칭 문제를 ‘의미론적 요소 탐지’와 ‘기하학적 정합’이라는 두 개의 더 다루기 쉬운 하위 문제로 나누어 해결하는 고전적인 컴퓨터 비전의 접근 방식을 따른다.

초기 컴퓨터 비전 연구에서는 SIFT(Scale-Invariant Feature Transform), HOG(Histogram of Oriented Gradients)와 같은 수동 특징점(Hand-crafted Feature) 기술이 이미지 매칭에 널리 사용되었다. 이들은 이미지의 크기 변화나 회전, 조명 변화에 어느 정도 강인성을 가지도록 설계되었다. 그러나 CVGL 문제에서 발생하는 극심한 시점 변화와 비선형적인 기하학적 왜곡 앞에서는 이러한 특징점들이 안정적으로 추출되거나 매칭되지 못했다. 따라서 SIFT나 HOG를 이용한 직접적인 매칭 시도는 CVGL 문제에 효과적인 해결책이 되지 못함이 빠르게 입증되었다.5

픽셀 레벨의 저수준(low-level) 외형 정보가 불안정하다는 한계를 극복하기 위해, 연구자들은 시점 변화에 상대적으로 불변하는 고수준(high-level)의 의미론적(Semantic) 정보에 주목했다. 이는 이미지의 색상이나 질감이 아닌, ‘도로’, ‘건물’, ‘교차로’와 같은 객체의 구조나 배치 관계를 활용하는 방식이다.

의미론적 정합을 통해 쿼리 이미지와 참조 지도 간의 대응 관계가 수립되면, 이로부터 카메라의 정확한 3차원 위치($t$)와 자세($R$)를 복원할 수 있다. 특히, 카메라가 도로와 같은 평면을 촬영하는 경우, 이미지 평면과 실제 세계 평면 사이의 2차원 투영 변환은 3x3 호모그래피(Homography) 행렬 $H$로 모델링될 수 있다.22

카메라의 내부 파라미터(Intrinsic Parameter)를 담고 있는 행렬을 $K$라고 할 때, 호모그래피 행렬 $H$는 카메라의 외부 파라미터(Extrinsic Parameter)인 회전 행렬 $R$과 변위 벡터 $t$와 다음과 같은 관계를 가진다. \(K^{-1}H = s[r_1, r_2, t]\) 여기서 $r_1, r_2$는 회전 행렬 $R$의 첫 번째와 두 번째 열벡터이며, $s$는 미지의 스케일 팩터이다.22 이 관계식을 이용하여

$H$와 $K$로부터 $R$과 $t$를 추정하는 과정은 다음과 같다.

  1. 회전 행렬 $R$ 추정:

    • 먼저 $A = [r_1, r_2]$와 $B = K^{-1}H$의 첫 두 열로 이루어진 3x2 행렬이라 정의하면, 위 식은 $sA = B$로 단순화된다. $r_1$과 $r_2$는 회전 행렬의 열벡터이므로 서로 직교하고 크기가 1이어야 한다. 즉, $A^TA = I$ (2x2 단위 행렬) 조건을 만족해야 한다.

    • 실제로는 $H$와 $K$의 추정 오차로 인해 $B$가 이 조건을 완벽하게 만족하지 않으므로, 비용 함수 $\lVert sA - B \rVert_F^2$를 최소화하는 최적의 $s$와 $A$를 찾아야 한다. 여기서 $\lVert \cdot \rVert_F$는 프로베니우스 놈(Frobenius norm)이다.22

    • 이 비용 함수를 최소화하는 것은 $\text{trace}(A^TB)$를 최대화하는 것과 동일하다. 행렬 $B$를 특이값 분해(Singular Value Decomposition, SVD)하여 $B = UWV^T$로 나타내면, $\text{trace}(A^TB)$를 최대화하는 최적의 $A$는 다음과 같이 구해진다.22 \(\hat{A} = UEV^T, \quad \text{where} \quad E = \begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{bmatrix}\)

    • 최적의 $\hat{A}$로부터 첫 번째 열벡터 $\hat{a}_1$과 두 번째 열벡터 $\hat{a}_2$를 얻는다. 회전 행렬의 세 번째 열벡터는 두 벡터의 외적($\hat{a}_1 \times \hat{a}_2$)으로 계산할 수 있으므로, 최종 회전 행렬 $\hat{R}$은 다음과 같다.22 \(\hat{R} = [\hat{a}_1, \hat{a}_2, \hat{a}_1 \times \hat{a}_2]\)

  2. 변위 벡터 $t$ 추정:

    • 비용 함수를 최소화하는 최적의 스케일 팩터 $\hat{s}$는 $B$의 특이값 $w_1, w_2$를 이용하여 다음과 같이 계산된다.22 \(\hat{s} = \frac{\text{trace}(\hat{A}^TB)}{2} = \frac{w_1 + w_2}{2}\)

    • 초기 관계식에서 $st = K^{-1}H_3$ ($H_3$는 $H$의 세 번째 열)이므로, 최종 변위 벡터 $\hat{t}$는 다음과 같이 추정된다.22 \(\hat{t} = \frac{K^{-1}H_3}{\hat{s}} = \frac{2K^{-1}H_3}{w_1 + w_2}\)

이러한 수학적 과정을 통해, 의미론적 정합의 결과물로부터 강인하게 카메라의 정확한 지리적 위치와 방향을 복원할 수 있다.

전통적인 접근법이 특정 의미론적 요소에 의존하는 한계를 가지는 반면, 딥러닝 기반 접근법은 이미지 전체의 복잡한 시각적 패턴을 종단간(end-to-end) 방식으로 학습하여 문제를 해결한다. 이 패러다임의 전환은 CVGL을 ‘특징 공학(Feature Engineering)’의 영역에서 ‘표현 학습(Representation Learning)’의 영역으로 이동시켰다. 최근에는 합성곱 신경망(CNN)의 한계를 넘어 트랜스포머(Transformer)와 같은 새로운 ‘아키텍처 혁신(Architectural Innovation)’으로 발전하고 있다.

딥러닝 기반 CVGL은 문제를 이미지 검색(Image Retrieval) 문제로 재정의하는 것에서 출발한다.9 이 관점에서, 위치를 모르는 지상 뷰 쿼리 이미지 $Q$가 주어졌을 때, 목표는 GPS 좌표가 태깅된 대규모 항공 뷰 참조 이미지 데이터베이스 ${A_i}$ 내에서 $Q$와 동일한 장소를 촬영한 이미지 $A^$를 찾는 것이다. 이는 유사도 함수 $S(Q, A_i)$를 최대화하는 $A_i$를 찾는 것과 같다.9 최적의 참조 이미지 $A^$가 검색되면, 그 이미지에 부여된 GPS 좌표가 쿼리 이미지 $Q$의 위치로 추정된다.12

이러한 검색 기반 파이프라인은 두 가지 핵심 요소로 구성된다 12:

  1. 특징 추출기(Feature Extractor): 지상 뷰와 항공 뷰 이미지의 시각적 내용을 시점 변화에 강인한 고정된 차원의 벡터, 즉 임베딩(Embedding)으로 변환하는 역할을 한다.
  2. 유사도 측정 및 검색(Similarity Metric & Search): 쿼리 이미지의 임베딩과 데이터베이스 내 모든 참조 이미지의 임베딩 간의 유사도를 계산하고, 가장 높은 유사도를 가진 이미지를 순위화하여 반환한다.

이러한 파이프라인을 구현하기 위한 표준적인 딥러닝 아키텍처가 바로 샴 네트워크(Siamese Network)이다.10 ‘샴 쌍둥이’라는 이름에서 알 수 있듯이, 이 네트워크는 동일한 구조를 가진 두 개 이상의 브랜치(Branch)를 가진다. CVGL에서는 일반적으로 두 개의 브랜치를 사용하며, 하나는 지상 뷰 이미지를, 다른 하나는 항공 뷰 이미지를 입력으로 받는다.3

각 브랜치는 보통 VGG, ResNet과 같은 사전 훈련된 CNN을 기반으로 하는 인코더(Encoder)로 구성된다. 이 인코더는 고차원의 이미지 픽셀 공간을 저차원의 고밀도 특징 공간(Embedding Space)으로 매핑하는 함수 f(⋅) 역할을 한다. 즉, 지상 이미지 $I_g$는 $f_g(I_g) = v_g$로, 항공 이미지 $I_a$는 $f_a(I_a) = v_a$로 변환된다. 여기서 $v_g$와 $v_a$는 특징 벡터(임베딩)이다. 두 브랜치는 동일한 가중치를 공유(weight sharing)할 수도 있고, 각 뷰의 특성을 더 잘 학습하기 위해 독립적인 가중치를 가질 수도 있다.3

샴 네트워크의 핵심 목표는 특징 공간 자체를 학습하는 것이다. 즉, 동일한 장소를 촬영한 긍정 쌍(positive pair) $(I_g, I_a^+)$의 임베딩 $v_g$와 $v_a^+$는 특징 공간에서 서로 가까워지도록(거리가 작아지도록) 하고, 다른 장소를 촬영한 부정 쌍(negative pair) $(I_g, I_a^-)$의 임베딩 $v_g$와 $v_a^-$는 서로 멀어지도록(거리가 커지도록) 네트워크의 가중치를 업데이트한다. 이 과정을 ‘메트릭 러닝(Metric Learning)’이라 하며, 이를 통해 네트워크는 시점 차이를 극복하고 의미론적으로 유사한 이미지를 가깝게 배치하는 표현(Representation)을 학습하게 된다.11

메트릭 러닝을 위해 샴 네트워크를 훈련시키는 데에는 특수한 손실 함수가 사용된다. 대표적으로 대조 손실과 삼중항 손실이 있다.

대조 손실은 이미지 쌍(pair)을 입력으로 받아, 두 이미지가 유사한지(positive pair) 혹은 상이한지(negative pair)에 따라 다른 방식으로 손실을 계산한다.24

수학적으로 대조 손실 함수 $L_c$는 다음과 같이 정의된다. 여기서 $D = \lVert f(I_1) - f(I_2) \rVert_2$ 이다.28 \(L_c = (1-Y) \cdot \frac{1}{2}D^2 + Y \cdot \frac{1}{2}\max(0, m - D)^2\)

삼중항 손실은 대조 손실보다 더 효과적인 학습을 위해 세 개의 샘플, 즉 기준이 되는 ‘앵커(Anchor)’, 앵커와 같은 클래스인 ‘포지티브(Positive)’, 그리고 앵커와 다른 클래스인 ‘네거티브(Negative)’를 한 번에 사용한다.8

이 손실 함수의 목표는 앵커($a$)와 포지티브($p$) 사이의 거리가 앵커($a$)와 네거티브($n$) 사이의 거리보다 항상 특정 마진($m$) 이상 작도록 만드는 것이다.29 이는 상대적인 거리 관계를 학습하도록 유도하며, 단순히 긍정 쌍을 가깝게, 부정 쌍을 멀게 하는 것보다 더 정교한 특징 공간을 형성하는 데 도움이 된다.

수학적으로 삼중항 손실 함수 $L_t$는 다음과 같이 정의된다. 여기서 $d(x, y)$는 두 임베딩 $x, y$ 간의 거리를 의미한다.24 \(L_t = \max(d(a, p) - d(a, n) + m, 0)\) 이 손실 함수는 $d(a, p) + m \le d(a, n)$ 조건을 만족할 때 0이 되며, 그렇지 않은 경우에만 페널티를 부과하여 네트워크를 업데이트한다.

손실 함수 (Loss Function) 수학적 공식 (Formula) 핵심 목표 (Objective) 입력 형태 (Input Type)
대조 손실 (Contrastive Loss) $L = (1-Y)D^2 + Y \cdot \max(0, m - D)^2$ 유사 쌍은 가깝게, 비유사 쌍은 마진 m 이상 멀게 이미지 쌍 (Pair)
삼중항 손실 (Triplet Loss) $L = \max(d(a, p) - d(a, n) + m, 0)$ 앵커-포지티브 거리가 앵커-네거티브 거리보다 마진 m 이상 작도록 강제 이미지 삼중항 (Triplet)

학습된 임베딩 공간에서 두 벡터의 유사도를 측정하는 데에는 유클리드 거리 외에 코사인 유사도가 널리 사용된다. 코사인 유사도는 두 벡터 사이의 각도의 코사인 값을 측정하며, 벡터의 크기(magnitude)와 무관하게 오직 방향의 유사성만을 고려한다.30

수학적으로 두 벡터 $A$와 $B$의 코사인 유사도는 다음과 같이 계산된다.31 \(\text{Similarity} = \cos(\theta) = \frac{A \cdot B}{\lVert A \rVert \lVert B \rVert}\) 이 값은 -1(완전히 반대 방향)에서 +1(완전히 같은 방향) 사이의 값을 가지며, 0은 두 벡터가 직교함을 의미한다.31 이 방식은 이미지의 밝기나 대비 변화로 인해 특징 벡터의 전체적인 크기가 변하더라도, 특징 간의 상대적인 비율(즉, 방향)은 유지될 가능성이 높다는 점에서 CVGL에 적합하다.

샴 네트워크와 메트릭 러닝만으로는 극심한 기하학적 도메인 격차를 완전히 해소하기 어렵다. 이를 보완하기 위해 다양한 기법들이 제안되었다.

극좌표 변환은 항공 뷰 이미지에 기하학적 변환을 가하여 지상 뷰 파노라마 이미지와 유사한 구조로 만드는 기법이다.12 지상 파노라마 이미지에서 수평선은 360도 방향을, 수직선은 시야각을 나타낸다. 평평한 지면을 가정할 때, 이는 항공 뷰에서의 동심원(거리)과 방사형 선(방향)에 대응된다.33

극좌표 변환은 항공 이미지를 중심점을 기준으로 펼쳐서, 동심원 구조를 수평선으로, 방사형 구조를 수직선으로 매핑한다. 이렇게 변환된 항공 이미지는 지상 파노라마 이미지와 유사한 공간적 레이아웃을 가지게 되어, CNN이 두 뷰 간의 특징을 대응시키기 훨씬 쉬워진다.33 이 기법은 신경망이 복잡한 기하학적 관계를 처음부터 학습해야 하는 부담을 덜어주어 성능 향상에 크게 기여했다.33 그러나 이 방법은 쿼리 이미지의 위치가 항공 이미지의 정확한 중앙에 위치해야 한다는 강한 가정을 전제로 하며, 이 가정이 깨질 경우 심각한 왜곡이 발생하여 성능이 저하될 수 있다.11

또 다른 접근법은 생성 모델, 특히 GAN(Generative Adversarial Networks)을 사용하여 한 도메인의 이미지를 다른 도메인의 스타일로 변환하는 것이다.8 예를 들어, 지상 뷰 이미지를 입력으로 받아 해당 장소의 항공 뷰 이미지를 ‘생성’하거나 그 반대의 변환을 수행한다. 이렇게 생성된 이미지는 실제 참조 이미지와 시점 및 외형이 유사해지므로, 도메인 격차가 줄어든 상태에서 매칭을 수행할 수 있다. 이 방식은 유연성이 높지만, 고품질의 이미지를 생성하기 위한 학습이 매우 불안정하고 계산 비용이 많이 든다는 단점이 있다.12

최근 CVGL 분야에서는 CNN의 한계를 극복하기 위한 대안으로 트랜스포머(Transformer) 아키텍처가 주목받고 있다. 이는 문제 해결의 관점을 ‘어떻게 좋은 특징을 학습할 것인가’에서 ‘어떤 아키텍처가 이 문제에 근본적으로 더 적합한가’로 전환시켰다.

CNN은 커널(kernel)을 이용해 이미지의 지역적인(local) 패턴을 인식하고, 이를 계층적으로 쌓아 더 복잡한 특징을 학습하는 데 매우 효과적이다. 하지만 이러한 ‘지역성(locality)’과 ‘병진 등변성(translation equivariance)’이라는 귀납적 편향(inductive bias)은 CVGL 문제에서 한계로 작용한다. 지상 뷰에서 가까이 있는 두 객체가 항공 뷰에서는 멀리 떨어져 보이는 등, 두 뷰 간의 공간적 대응 관계는 매우 비지역적(non-local)이기 때문이다. CNN이 이러한 장거리 의존성(long-range dependency)을 파악하기 위해서는 수많은 레이어를 거쳐야만 한다.35

반면, 비전 트랜스포머(Vision Transformer, ViT)는 이미지를 여러 개의 패치(patch)로 나눈 뒤, 셀프 어텐션(Self-Attention) 메커니즘을 통해 모든 패치 쌍 간의 관계를 한 번에 계산한다.36 이를 통해 이미지의 전역적인 문맥(global context)을 효과적으로 모델링할 수 있다. 또한, 각 패치에 더해지는 위치 인코딩(Positional Encoding)은 모델이 각 패치의 절대적, 상대적 위치 정보를 명시적으로 활용할 수 있게 하여, 두 뷰 간의 복잡한 기하학적 대응 관계를 학습하는 데 유리하다.12

TransGeo는 이러한 트랜스포머의 장점을 극대화하여 CVGL 문제를 해결한 대표적인 모델이다.35 이 모델은 극좌표 변환과 같은 외부적인 기하학적 사전 지식에 의존하지 않고, 순수한 트랜스포머 아키텍처만으로 최첨단 성능을 달성했다.

TransGeo의 핵심 혁신 중 하나는 ‘어텐션 기반 비균일 크롭핑(Attention-guided Non-uniform Cropping)’이다.35 이 기법은 다음과 같이 작동한다:

  1. 트랜스포머가 이미지를 처리하는 과정에서 생성되는 어텐션 맵(attention map)을 분석한다. 이 맵은 모델이 이미지의 어떤 부분에 더 ‘주목’하는지를 나타낸다.
  2. 지상 뷰 이미지의 하늘 부분이나 항공 뷰 이미지에서 건물에 가려진 영역처럼 정보량이 적고 매칭에 불필요한 패치들은 낮은 어텐션 값을 가진다.
  3. 이러한 정보량이 적은 패치들을 동적으로 식별하고 입력에서 제거한다. 이를 통해 불필요한 계산을 줄여 모델의 효율성을 높인다.
  4. 여기서 절약된 계산 자원을 정보량이 많은 중요한 패치들의 해상도를 높이는 데 재할당한다. 예를 들어, 더 작은 크기로 패치를 나누어 더 세밀한 특징을 학습하게 한다.

이 “주목하고 확대하는(attend and zoom-in)” 전략은 인간이 복잡한 장면을 인식하는 방식과 유사하며, 제한된 계산 자원 내에서 성능을 극대화하는 매우 효과적인 방법이다.35

방법론 (Methodology) 핵심 원리 (Core Principle) 장점 (Pros) 단점 (Cons) 주요 참조 (Key Snippets)
의미론적 접근 (Semantic) 도로망, 건물 등 의미론적 요소 정합 조명/계절 변화에 강인, 해석 가능 객체 탐지 성능에 의존, 일반화 어려움 10
샴 CNN (Siamese CNN) 메트릭 러닝으로 시점 불변 특징 학습 종단간 학습, 우수한 특징 표현 전역 문맥 파악 한계, 기하학적 변환에 취약 3
+ 극좌표 변환 (+ Polar Transform) 기하학적 사전 지식 주입으로 문제 단순화 시점 차이 완화, 성능 향상 정렬 가정 필요, 이미지 왜곡 발생 12
트랜스포머 (Transformer) 셀프 어텐션으로 전역 관계 및 기하학 학습 강력한 전역 모델링, 유연성, 고성능 대규모 데이터 필요, 계산 복잡도 높음 35

CVGL 연구는 벤치마크 데이터셋에서 높은 정확도를 달성하는 단계를 넘어, 실제 세계의 복잡하고 예측 불가능한 환경에서 신뢰성 있게 작동하는 기술을 개발하는 새로운 단계로 진입하고 있다. 이는 ‘정밀도 경쟁’에서 ‘실용성과 강인성 확보’로 연구의 초점이 이동하고 있음을 의미한다. 현재와 미래의 연구는 데이터 부족, 환경 변화, 동적 상황과 같은 현실 세계의 난제들을 어떻게 극복할 것인가에 집중되고 있다.

CVGL 연구의 발전은 CVUSA 11, CVACT 16, VIGOR 16와 같은 대규모 공개 벤치마크 데이터셋에 크게 의존해왔다. 이 데이터셋들은 수십만 개의 지상-항공 이미지 쌍을 제공하여 다양한 딥러닝 모델의 성능을 공정하게 비교하고 평가하는 기준 역할을 한다. 각 데이터셋은 지상 뷰 이미지의 형태(예: 360도 파노라마 vs. 전방 시야각), 지상-항공 이미지 간의 정렬 여부 등에서 차이를 보여, 다양한 시나리오에서의 모델 성능을 검증하는 데 사용된다.

그러나 현재의 최첨단(SOTA) 모델들은 대부분 이러한 대규모의, 정확하게 위치가 정렬된 레이블링된 데이터에 기반한 지도 학습(Supervised Learning) 방식으로 훈련된다.14 실제 세계에서 이처럼 정밀한 지상-항공 이미지 쌍을 수집하고 주석을 다는 작업은 GPS/INS 장비가 장착된 고가의 차량과 막대한 인력이 필요하며, 이는 기술을 새로운 지역으로 확장하는 데 큰 장벽으로 작용한다.14

이러한 데이터 비용 문제를 해결하기 위해, 레이블이 없는 방대한 양의 데이터를 활용하려는 연구가 활발히 진행되고 있다.

현재 SOTA 모델들은 CVUSA와 같은 표준 벤치마크 데이터셋에서는 90%를 넘는 높은 검색 정확도를 보이지만, 이는 대부분 맑은 날에 촬영된 깨끗한 이미지들을 대상으로 한다. 실제 환경에서 마주치는 악천후(비, 눈, 안개), 극단적인 조명 변화(야간, 역광), 카메라 센서 노이즈와 같은 이미지 왜곡(corruption)에 대해서는 성능이 급격히 저하되는 취약점을 보인다.17 이는 자율 주행과 같이 안전이 중요한(safety-critical) 응용 분야에 CVGL 기술을 적용하는 데 있어 심각한 걸림돌이다.

도시 환경은 정적이지 않다. 새로운 건물이 들어서고, 도로가 확장되며, 계절에 따라 나무의 모습이 바뀌는 등 장기적인 변화가 발생한다. 또한, 차량, 보행자, 임시 공사 구조물 등 단기적인 동적 요소들도 끊임없이 변한다.1 현재 모델들은 대부분 정적인 장면에 대해 학습되므로, 이러한 동적인 변화에 강인한, 시간 불변적인(time-invariant) 특징을 학습하는 것이 중요한 과제로 남아있다.

이러한 강인성 문제를 해결하기 위해 다음과 같은 연구가 필요하다.

CVGL을 도시 전체, 국가, 나아가 전 세계 단위로 확장하기 위해서는 수백만, 수십억 장의 참조 이미지를 다루어야 한다. 쿼리 이미지가 주어질 때마다 이 모든 참조 이미지의 특징 벡터와 일일이 유사도를 비교하는 것은 엄청난 계산 시간을 요구하여 실시간 응용에 부적합하다.38 따라서, 대규모 벡터 공간에서 효율적으로 최근접 이웃(Nearest Neighbor)을 검색할 수 있는 FAISS와 같은 벡터 인덱싱 및 검색 기술의 도입이 필수적이다.40

지금까지의 연구는 대부분 단일 정지 이미지를 쿼리로 사용하는 것을 가정했다.15 하지만 자율 주행 차량이나 보행자는 연속적인 이미지 스트림(비디오)을 통해 주변 환경을 인식한다. 단일 이미지는 특정 방향의 제한된 정보만을 담고 있어 오해의 소지가 크다.

이러한 한계를 극복하기 위해, 보다 현실적인 쿼리 형태를 사용하는 새로운 연구 방향이 제시되고 있다.

이러한 접근법들은 CVGL 기술을 정적인 ‘이미지 검색’ 문제에서 동적인 ‘상태 추정(State Estimation)’ 문제로 발전시키며, 실제 응용 시나리오와의 간극을 줄이는 데 기여할 것이다.

항공 이미지 매칭을 통한 지리적 위치 추정(CVGL) 기술은 지난 십여 년간 괄목할 만한 발전을 이루었다. 초기의 연구는 도로망이나 건물과 같은 명시적인 의미론적 정보에 의존하는 방식에서 출발했다. 이후 딥러닝의 부상과 함께, 샴 CNN 아키텍처와 메트릭 러닝을 통해 시점 변화에 불변하는 특징 표현을 종단간으로 학습하는 패러다임이 주류가 되었다. 최근에는 CNN의 내재적 한계를 극복하고 이미지의 전역적 문맥과 장거리 공간 관계를 효과적으로 모델링하는 트랜스포머 기반 아키텍처가 등장하여 성능을 한 단계 끌어올렸다.

현재 CVGL 기술은 통제된 환경의 표준 벤치마크 데이터셋에서는 인간의 능력을 상회하는 높은 수준의 정확도를 달성하고 있다. 하지만 이러한 성과는 대부분 이상적인 조건 하에서 얻어진 것으로, 실제 세계에서 마주치는 극심한 외형 변화(악천후, 조명), 동적인 환경 변화, 그리고 대규모 데이터베이스의 확장성 문제에 대한 강인성은 여전히 해결해야 할 핵심 과제로 남아있다. 즉, 실험실 수준의 ‘정확도’와 실제 현장에서 요구되는 ‘신뢰성’ 사이에는 아직 명확한 간극이 존재한다.

향후 CVGL 연구는 이러한 간극을 메우는 방향으로 전개될 것이다. 레이블링 비용의 한계를 극복하기 위한 비지도/준지도 학습, 실제 환경의 불확실성에 대응하기 위한 강인성 및 일반화 성능 향상, 그리고 단일 이미지를 넘어 비디오 시퀀스나 이미지 셋을 활용하는 동적 지역화 기술이 핵심 연구 주제가 될 것이다.

이러한 과제들이 성공적으로 해결된다면, CVGL 기술의 적용 범위는 무한히 확장될 잠재력을 가지고 있다. GPS에 전적으로 의존하지 않는 완전 자율 주행 자동차, 오차 없는 배송을 수행하는 자율 비행 드론, 실제 세계와 가상 세계를 완벽하게 융합하는 개인화된 증강 현실 서비스, 그리고 지리 정보가 없는 방대한 미디어 데이터의 자동 아카이빙 등, CVGL은 4차 산업혁명의 다양한 핵심 응용 분야에서 필수적인 기반 기술로 자리매김할 것이다. 이는 단순한 위치 찾기를 넘어, 기계가 인간처럼 시각적으로 공간을 이해하고 상호작용하는 시대를 여는 중요한 열쇠가 될 것이다.

  1. Visual Geo-Localization from images - arXiv, accessed August 18, 2025, https://arxiv.org/html/2407.14910v1
  2. CVPR 2023: A Comprehensive Tour and Recent Advancements …, accessed August 18, 2025, https://www.sri.com/research/information-computing-sciences/computer-vision/cvpr-2023-a-comprehensive-tour-and-recent-advancements-toward-real-world-visual-geo-localization/
  3. UAV Geo-Localization Dataset and Method Based on Cross-View Matching - PMC, accessed August 18, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11548418/
  4. Cross-View Image Matching for Geo-Localization in Urban Environments - ResearchGate, accessed August 18, 2025, https://www.researchgate.net/publication/320971103_Cross-View_Image_Matching_for_Geo-Localization_in_Urban_Environments
  5. Leveraging cross-view geo-localization with ensemble learning and temporal awareness, accessed August 18, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10062671/
  6. Revisiting Cross-View Localization from Image Matching - arXiv, accessed August 18, 2025, https://arxiv.org/html/2508.10716v1
  7. The siamese network that learns to re-identify objects between a pair… - ResearchGate, accessed August 18, 2025, https://www.researchgate.net/figure/The-siamese-network-that-learns-to-re-identify-objects-between-a-pair-of-frames-proposed_fig34_375746251
  8. CVPR 2021 tutorial on Cross-view and Cross-modal Visual Geo …, accessed August 18, 2025, https://www.sri.com/research/information-computing-sciences/computer-vision/cvpr-2021-tutorial-on-cross-view-and-cross-modal-visual-geo-localization/
  9. (PDF) Cross-View Geo-Localization: A Survey - ResearchGate, accessed August 18, 2025, https://www.researchgate.net/publication/386207589_Cross-view_Geo-localization_A_Survey
  10. Cross-View Image Matching for Geo … - CVF Open Access, accessed August 18, 2025, https://openaccess.thecvf.com/content_cvpr_2017/papers/Tian_Cross-View_Image_Matching_CVPR_2017_paper.pdf
  11. Feature Relation Guided Cross-View Image Based Geo-Localization - MDPI, accessed August 18, 2025, https://www.mdpi.com/2072-4292/15/20/5029
  12. GeoViewMatch: A Multi-Scale Feature-Matching Network for Cross …, accessed August 18, 2025, https://www.mdpi.com/2072-4292/16/4/678
  13. CVPR Tutorial A Comprehensive Tour and Recent Advancements toward Real-world Visual Geo-Localization, accessed August 18, 2025, https://cvpr.thecvf.com/virtual/2023/tutorial/18566
  14. Unleashing Unlabeled Data: A Paradigm for Cross-View Geo-Localization, accessed August 18, 2025, https://openaccess.thecvf.com/content/CVPR2024/papers/Li_Unleashing_Unlabeled_Data_A_Paradigm_for_Cross-View_Geo-Localization_CVPR_2024_paper.pdf
  15. Cross-View Image Set Geo-Localization - arXiv, accessed August 18, 2025, https://arxiv.org/html/2412.18852v1
  16. Cross-view image geo-localization with Panorama-BEV Co-Retrieval Network - European Computer Vision Association, accessed August 18, 2025, https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05379.pdf
  17. Benchmarking the Robustness of Cross-view Geo-localization Models OpenReview, accessed August 18, 2025, https://openreview.net/forum?id=x8mzNomCRe
  18. AGEN: Adaptive Error Control-Driven Cross-View Geo-Localization …, accessed August 18, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC12196939/
  19. Visual Geo-Localization Based on Spatial Structure Feature Enhancement and Adaptive Scene Alignment - MDPI, accessed August 18, 2025, https://www.mdpi.com/2079-9292/14/7/1269
  20. Introduction to General Visual Geo-Localization SRI International, accessed August 18, 2025, https://www.sri.com/wp-content/uploads/2023/06/Han-Pang-Chiu_Introduction-to-General-Visual-GeoLocalization.pdf
  21. Aerial image geolocalization from recognition and matching of roads and intersections - BMVA Archive, accessed August 18, 2025, https://www.bmva-archive.org.uk/bmvc/2016/papers/paper118/paper118.pdf
  22. Geolocalization from Aerial Sensing Images Using Road Network Alignment - MDPI, accessed August 18, 2025, https://www.mdpi.com/2072-4292/16/3/482
  23. Optimal Feature Transport for Cross-View Image Geo … - AAAI, accessed August 18, 2025, https://cdn.aaai.org/ojs/6875/6875-13-10104-1-10-20200525.pdf
  24. Triplet loss - Wikipedia, accessed August 18, 2025, https://en.wikipedia.org/wiki/Triplet_loss
  25. Understanding Ranking Loss, Contrastive Loss, Margin Loss, Triplet Loss, Hinge Loss and all those confusing names - Raúl Gómez blog, accessed August 18, 2025, https://gombru.github.io/2019/04/03/ranking_loss/
  26. Losses explained: Contrastive Loss by Maksym Bekuzarov Medium, accessed August 18, 2025, https://medium.com/@maksym.bekuzarov/losses-explained-contrastive-loss-f8f57fe32246
  27. An Introduction to Contrastive Learning Baeldung on Computer Science, accessed August 18, 2025, https://www.baeldung.com/cs/contrastive-learning
  28. What is the difference between triplet and contrastive loss?, accessed August 18, 2025, https://www.educative.io/answers/what-is-the-difference-between-triplet-and-contrastive-loss
  29. Triplet Loss: Intro, Implementation, Use Cases - V7 Labs, accessed August 18, 2025, https://www.v7labs.com/blog/triplet-loss
  30. medium.com, accessed August 18, 2025, https://medium.com/advanced-deep-learning/understanding-vector-similarity-b9c10f7506de#:~:text=Cosine%20Similarity%20only%20considers%20the,the%20vector%20magnitudes%20to%201.
  31. Cosine similarity - Wikipedia, accessed August 18, 2025, https://en.wikipedia.org/wiki/Cosine_similarity
  32. Understanding Cosine Similarity in Python with Scikit-Learn - Memgraph, accessed August 18, 2025, https://memgraph.com/blog/cosine-similarity-python-scikit-learn
  33. Where Am I Looking At? Joint Location and … - CVF Open Access, accessed August 18, 2025, https://openaccess.thecvf.com/content_CVPR_2020/papers/Shi_Where_Am_I_Looking_At_Joint_Location_and_Orientation_Estimation_CVPR_2020_paper.pdf
  34. Where Am I Looking At? Joint Location and Orientation Estimation by Cross-View Matching - CVPR 2020 Open Access Repository, accessed August 18, 2025, https://openaccess.thecvf.com/content_CVPR_2020/html/Shi_Where_Am_I_Looking_At_Joint_Location_and_Orientation_Estimation_CVPR_2020_paper.html
  35. TransGeo: Transformer Is All You Need for … - CVF Open Access, accessed August 18, 2025, https://openaccess.thecvf.com/content/CVPR2022/papers/Zhu_TransGeo_Transformer_Is_All_You_Need_for_Cross-View_Image_Geo-Localization_CVPR_2022_paper.pdf
  36. Cross-view Geo-localization with Layer-to-Layer Transformer, accessed August 18, 2025, https://proceedings.neurips.cc/paper/2021/file/f31b20466ae89669f9741e047487eb37-Paper.pdf
  37. CVPR Poster Unleashing Unlabeled Data: A Paradigm for Cross-View Geo-Localization, accessed August 18, 2025, https://cvpr.thecvf.com/virtual/2024/poster/30897
  38. State-of-the-Art in Visual Geo-localization - Martin Cadik, accessed August 18, 2025, http://cadik.posvete.cz/papers/brejcha-cadik17geolocalization_methods_survey.pdf
  39. CrossLocate: Cross-Modal Large-Scale Visual Geo-Localization in Natural Environments Using Rendered Modalities - CVF Open Access, accessed August 18, 2025, https://openaccess.thecvf.com/content/WACV2022/papers/Tomesek_CrossLocate_Cross-Modal_Large-Scale_Visual_Geo-Localization_in_Natural_Environments_Using_Rendered_WACV_2022_paper.pdf
  40. City-scale Cross-view Geolocalization with Generalization to Unseen Environments, accessed August 18, 2025, http://dspace.mit.edu/handle/1721.1/153793