항공 이미지 매칭을 통한 지리적 위치 추정(Geo-localization)

1. 항공 이미지 매칭을 통한 지리적 위치 추정의 개요

1.1 이미지 기반 지리적 위치 추정(Image-Based Geo-localization)의 정의 및 필요성

이미지 기반 지리적 위치 추정(Image-Based Geo-localization)은 주어진 한 장의 이미지 또는 비디오 프레임에 포함된 시각적 단서만을 활용하여, 해당 이미지가 촬영된 실제 세계의 지리적 좌표(일반적으로 위도와 경도)를 추정하는 기술 분야를 지칭한다.1 이 기술의 근본적인 필요성은 현대 사회의 핵심 인프라인 위성 항법 시스템(GNSS), 특히 GPS가 완벽하지 않다는 현실에서 출발한다. 고층 빌딩이 밀집한 도심 협곡, 실내 공간, 터널, 혹은 의도적인 신호 교란이 발생하는 환경에서는 GPS 신호가 약화되거나 수신이 불가능해진다.3 이러한 ‘GNSS-denied’ 환경에서 자율 주행 자동차, 로봇, 드론과 같은 자율 시스템이 자신의 위치를 지속적이고 정확하게 인식하기 위해서는 GPS를 대체하거나 보완할 수 있는 강인한 위치 결정 수단이 필수적이다. 이미지 기반 위치 추정은 카메라라는 저렴하고 보편적인 센서를 사용하여 이러한 공백을 메울 수 있는 가장 유력한 대안으로 부상하였다.7

문제의 본질은 정보 검색(Information Retrieval)의 한 형태로 정의될 수 있다. 즉, 위치를 알 수 없는 새로운 이미지(Query Image)가 입력되었을 때, 사전에 구축된 방대한 양의 지리 정보 태그(Geo-tag)가 부착된 참조 이미지 데이터베이스(Reference Database) 내에서 이와 가장 유사한 이미지를 검색하고, 검색된 참조 이미지의 지리적 좌표를 쿼리 이미지의 위치로 부여하는 과정이다.2 이 과정은 크게 두 단계로 나뉜다. 첫 번째는 대규모 데이터베이스에서 후보군을 빠르게 추려내는 ‘대략적 탐색(Coarse Search)’ 단계이며, 두 번째는 각 후보에 대해 정밀한 기하학적 검증을 수행하여 최종 위치와 자세(Pose)를 결정하는 ‘정밀 정렬(Fine Alignment)’ 단계이다.2

1.2 Cross-View Geo-Localization (CVGL)의 개념과 부상 배경

초기의 이미지 기반 위치 추정 연구는 대부분 동일 시점(Same-view), 즉 지상에서 촬영된 쿼리 이미지를 지상에서 촬영된 참조 이미지 데이터베이스와 비교하는 방식에 집중하였다.8 그러나 이러한 접근 방식은 실용적인 측면에서 근본적인 확장성의 한계에 직면했다. 전 세계의 모든 도로와 장소를 지상 뷰 이미지로 커버하고, 계절, 시간, 환경 변화에 따라 지속적으로 최신 상태를 유지하는 것은 천문학적인 비용과 노력을 요구한다.2

이러한 배경 속에서 ’교차 시점 지리적 위치 추정(Cross-View Geo-Localization, CVGL)’이라는 새로운 패러다임이 부상하였다. CVGL은 지상 뷰(Street/Ground View) 이미지를 쿼리로 사용하여, 전혀 다른 시점인 항공 또는 위성 뷰(Aerial/Overhead View)의 이미지 데이터베이스와 매칭하는, 보다 도전적인 문제로 정의된다.8 CVGL의 부상은 단순히 새로운 알고리즘의 등장이 아니라, 데이터 가용성과 확장성이라는 현실적인 제약 조건이 기술 발전을 견인한 대표적인 사례이다. 지상-지상 매칭 방식의 본질적인 확장성 한계가 항공-지상 매칭이라는 새로운 패러다임을 필연적으로 만들었다. Google Maps, Bing Maps 등 공개적으로 접근 가능한 고해상도 항공/위성 이미지가 전 세계를 대상으로 광범위하게 제공되면서, 참조 데이터베이스 구축의 난이도가 획기적으로 낮아졌기 때문이다.4 즉, CVGL은 극심한 시점 차이라는 기술적 난제를 감수하는 대신, 월등한 데이터 접근성과 확장성을 확보하려는 전략적 선택의 산물이며, 이 분야 연구의 핵심 동기를 제공한다.2

1.3 주요 응용 분야 및 중요성

CVGL 기술은 다양한 미래 산업의 핵심 기반 기술로서 중요한 역할을 수행한다.

자율 주행 및 로보틱스: 도심 환경에서 GPS 신호가 불안정할 때, CVGL은 차량이나 로봇의 위치를 센티미터 수준으로 정밀하게 보정하는 역할을 수행할 수 있다. 이는 안전한 차선 유지, 정밀 주차, 복잡한 교차로 주행 등 고도의 자율 주행 기능 구현에 필수적이다.5
증강 현실(AR) 및 가상 현실(VR): 사용자의 스마트폰 카메라에 보이는 실제 장면에 가상의 정보를 정확하게 중첩시키기 위해서는 카메라의 6-DoF(Degrees of Freedom) 자세, 즉 3차원 위치와 3차원 방향을 모두 알아야 한다. CVGL은 이러한 정밀한 자세 추정을 가능하게 하여, 몰입감 높은 광역 증강 현실(Wide Area AR) 경험을 제공하는 기반이 된다.7
이미지 검색 및 관리: 수십억 장의 온라인 이미지 중 GPS 정보가 없는 사진들의 촬영 위치를 자동으로 추정하여, ’파리 에펠탑 앞에서 찍은 사진’과 같이 지리적 맥락에 기반한 콘텐츠 검색 및 자동 분류 시스템을 구축하는 데 활용될 수 있다.1

2. 핵심 기술적 난제

지상 뷰와 항공 뷰 이미지를 매칭하는 과정은 인간에게는 직관적으로 가능할지 모르나, 컴퓨터 비전 알고리즘에게는 극도로 어려운 문제이다. 이러한 어려움은 두 이미지 도메인 간의 근본적인 ’도메인 격차(Domain Gap)’에서 비롯되며, 이는 기하학적, 광도적, 내용적 측면에서 다층적으로 나타난다.12 성공적인 CVGL 솔루션은 이 세 가지 측면의 격차를 모두 효과적으로 극복해야 한다.

2.1 극심한 시점 변화(Viewpoint Variation)로 인한 도메인 격차

가장 근본적인 난제는 두 이미지 뷰 간의 기하학적 불일치이다. 지상 이미지는 지표면과 거의 평행한 시점에서 촬영되어 원근 투영(Perspective Projection)의 영향을 크게 받는다. 이로 인해 건물은 정면, 측면 등의 입면이 보이고, 멀리 있는 객체는 작게 보인다.12 반면, 항공 및 위성 이미지는 지표면을 수직으로 내려다보는 조감도(Bird’s-eye View) 시점에서 촬영되며, 일반적으로 지형의 왜곡을 보정한 정사영상(Orthophoto) 형태로 제공된다. 이 시점에서는 건물의 옥상과 도로의 평면적 배치만이 보인다.9

이처럼 동일한 3차원 공간이 두 개의 전혀 다른 2차원 평면에 투영되기 때문에, 전통적인 특징점(예: SIFT, ORB) 기반의 매칭 알고리즘은 대응점을 거의 찾지 못하고 실패하게 된다. 이 기하학적 도메인 격차는 CVGL을 동일 시점 이미지 매칭 문제와 근본적으로 구별 짓는 가장 큰 특징이다.12

2.2 외형 변화 요인 (Appearance Variation Factors)

기하학적 구조가 일치하더라도, 이미지의 픽셀 값 자체, 즉 외형(Appearance)이 크게 달라 매칭을 어렵게 만든다. 이는 광도적(Photometric) 격차를 유발한다.

조명, 계절, 기상 조건: 지상 이미지와 항공 참조 이미지는 수년의 시간 간격을 두고 촬영될 수 있으며, 촬영 시점의 시간대, 계절, 날씨가 다를 가능성이 매우 높다.8 아침과 저녁의 빛의 방향과 색온도 차이, 여름의 무성한 녹음과 겨울의 앙상한 나뭇가지, 맑은 날과 비 오는 날의 반사율 변화 등은 동일한 장면이라도 완전히 다른 이미지로 보이게 만든다.9 특히 폭우나 폭설과 같은 악천후 조건은 이미지의 질감을 심각하게 훼손하고 대비를 낮추어, 알고리즘이 유의미한 특징을 추출하는 것 자체를 방해한다.17

2.3 가려짐(Occlusion) 및 동적 객체(Dynamic Objects)

마지막으로, 두 이미지에 담긴 내용(Content)의 불일치 문제이다.

가려짐(Occlusion): 지상 뷰에서는 가로수, 다른 건물, 대형 트럭 등에 의해 주요 랜드마크나 건물의 하단부가 가려지는 현상이 매우 흔하다. 항공 뷰에서는 명확하게 보이는 건물이 지상 뷰에서는 일부만 보이거나 전혀 보이지 않을 수 있다.9
동적 객체(Dynamic Objects): 도로 위의 자동차, 보행자, 공사 현장의 구조물 등은 지상 뷰 이미지에는 존재하지만, 다른 시점에 촬영된 항공 뷰 이미지에는 없거나 위치가 다르다. 이러한 동적 객체들은 안정적인 특징으로 사용될 수 없으며, 매칭 과정에서 노이즈로 작용하여 혼란을 야기한다.19

3. 전통적 및 의미론적 접근법

딥러닝 기술이 보편화되기 이전, 연구자들은 CVGL의 복잡한 문제를 해결하기 위해 ‘문제의 분해(Problem Decomposition)’ 전략을 사용했다. 이는 어려운 종단간(end-to-end) 시각적 매칭 문제를 ’의미론적 요소 탐지’와 ’기하학적 정합’이라는 두 개의 더 다루기 쉬운 하위 문제로 나누어 해결하는 고전적인 컴퓨터 비전의 접근 방식을 따른다.

3.1 초기 특징 기반 매칭의 시도와 한계

초기 컴퓨터 비전 연구에서는 SIFT(Scale-Invariant Feature Transform), HOG(Histogram of Oriented Gradients)와 같은 수동 특징점(Hand-crafted Feature) 기술이 이미지 매칭에 널리 사용되었다. 이들은 이미지의 크기 변화나 회전, 조명 변화에 어느 정도 강인성을 가지도록 설계되었다. 그러나 CVGL 문제에서 발생하는 극심한 시점 변화와 비선형적인 기하학적 왜곡 앞에서는 이러한 특징점들이 안정적으로 추출되거나 매칭되지 못했다. 따라서 SIFT나 HOG를 이용한 직접적인 매칭 시도는 CVGL 문제에 효과적인 해결책이 되지 못함이 빠르게 입증되었다.5

3.2 의미론적 정보(Semantic Information)를 활용한 강인한 매칭

픽셀 레벨의 저수준(low-level) 외형 정보가 불안정하다는 한계를 극복하기 위해, 연구자들은 시점 변화에 상대적으로 불변하는 고수준(high-level)의 의미론적(Semantic) 정보에 주목했다. 이는 이미지의 색상이나 질감이 아닌, ‘도로’, ‘건물’, ’교차로’와 같은 객체의 구조나 배치 관계를 활용하는 방식이다.

도로망 및 교차로 정합: 이 접근법은 도시의 도로망 구조가 지상 뷰와 항공 뷰 양쪽에서 모두 관찰 가능하며, 그 위상(topology) 구조가 쉽게 변하지 않는다는 점에 착안한다.21 전체 파이프라인은 다음과 같은 단계로 구성된다.

도로 분할(Road Segmentation): 딥러닝 기반의 의미론적 분할(Semantic Segmentation) 모델을 사용하여 항공 이미지에서 도로에 해당하는 픽셀들을 추출하여 이진 도로 지도를 생성한다.21
교차로 탐지: 생성된 도로 지도에서 교차점을 탐지한다. 교차로는 여러 도로가 만나는 지점으로, 주변 도로의 형태와 결합하여 매우 독특한 패턴을 형성한다.
교차로 기술자(Descriptor) 생성 및 매칭: 각 교차로를 중심으로 한 주변 영역의 도로망 패턴을 일종의 ’지문(fingerprint)’처럼 사용하여 고유한 기술자(descriptor)를 생성한다. 쿼리 항공 이미지에서 탐지된 교차로의 기술자를 OpenStreetMap(OSM)과 같이 실제 지리 좌표가 알려진 참조 지도 데이터베이스의 교차로 기술자들과 비교하여 가장 일치하는 위치를 찾는다.21 교차로는 희소하면서도 변별력이 높아 위치 추정의 강력한 기준점(Anchor) 역할을 한다.21

건물 윤곽선 매칭: 도로망과 유사하게, 건물의 배치 또한 시점 변화에 강인한 중요한 단서이다. 이 방식은 지상 뷰와 항공 뷰 이미지에서 각각 건물을 탐지하고, 이들의 기하학적 관계를 비교한다.10

건물 탐지: Faster R-CNN과 같은 객체 탐지 모델을 사용하여 지상 뷰와 항공 뷰 이미지에서 각각 건물의 위치와 경계 상자(bounding box)를 추출한다.10
특징 매칭: 각 건물 패치(patch)에 대해 특징을 추출하고, 쿼리 이미지에 있는 여러 건물들과 참조 데이터베이스에 있는 건물들 간의 유사도를 계산하여 후보 매칭 쌍을 찾는다.
전역적 일관성 검증: 개별 건물 매칭의 정확도를 높이기 위해, 여러 건물 매칭 쌍들의 전역적인 기하학적 배치(예: 건물 간 상대적 위치 및 방향)가 일관성을 유지하는지를 검증하여 최종 위치를 결정한다. 이 방식은 동적 객체나 사소한 가려짐에 강인하며, 의미적으로 중요한 정보에 집중할 수 있다는 장점이 있다.10

3.3 카메라 자세 추정의 수학적 원리: Homography 기반 접근법

의미론적 정합을 통해 쿼리 이미지와 참조 지도 간의 대응 관계가 수립되면, 이로부터 카메라의 정확한 3차원 위치( $t$ )와 자세( $R$ )를 복원할 수 있다. 특히, 카메라가 도로와 같은 평면을 촬영하는 경우, 이미지 평면과 실제 세계 평면 사이의 2차원 투영 변환은 3x3 호모그래피(Homography) 행렬 $H$ 로 모델링될 수 있다.22

카메라의 내부 파라미터(Intrinsic Parameter)를 담고 있는 행렬을 $K$ 라고 할 때, 호모그래피 행렬 $H$ 는 카메라의 외부 파라미터(Extrinsic Parameter)인 회전 행렬 $R$ 과 변위 벡터 $t$ 와 다음과 같은 관계를 가진다.
$K^{-1}H = s[r_1, r_2, t]$
여기서 $r_1, r_2$ 는 회전 행렬 $R$ 의 첫 번째와 두 번째 열벡터이며, $s$ 는 미지의 스케일 팩터이다.22 이 관계식을 이용하여

$H$ 와 $K$ 로부터 $R$ 과 $t$ 를 추정하는 과정은 다음과 같다.

회전 행렬 $R$ 추정:

먼저 $A = [r_1, r_2]$ 와 $B = K^{-1}H$ 의 첫 두 열로 이루어진 3x2 행렬이라 정의하면, 위 식은 $sA = B$ 로 단순화된다. $r_1$ 과 $r_2$ 는 회전 행렬의 열벡터이므로 서로 직교하고 크기가 1이어야 한다. 즉, $A^TA = I$ (2x2 단위 행렬) 조건을 만족해야 한다.
실제로는 $H$ 와 $K$ 의 추정 오차로 인해 $B$ 가 이 조건을 완벽하게 만족하지 않으므로, 비용 함수 $\lVert sA - B \rVert_F^2$ 를 최소화하는 최적의 $s$ 와 $A$ 를 찾아야 한다. 여기서 $\lVert \cdot \rVert_F$ 는 프로베니우스 놈(Frobenius norm)이다.22
이 비용 함수를 최소화하는 것은 $\text{trace}(A^TB)$ 를 최대화하는 것과 동일하다. 행렬 $B$ 를 특이값 분해(Singular Value Decomposition, SVD)하여 $B = UWV^T$ 로 나타내면, $\text{trace}(A^TB)$ 를 최대화하는 최적의 $A$ 는 다음과 같이 구해진다.22
$\hat{A} = UEV^T, \quad \text{where} \quad E = \begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{bmatrix}$
최적의 $\hat{A}$ 로부터 첫 번째 열벡터 $\hat{a}_1$ 과 두 번째 열벡터 $\hat{a}_2$ 를 얻는다. 회전 행렬의 세 번째 열벡터는 두 벡터의 외적( $\hat{a}_1 \times \hat{a}_2$ )으로 계산할 수 있으므로, 최종 회전 행렬 $\hat{R}$ 은 다음과 같다.22
$\hat{R} = [\hat{a}_1, \hat{a}_2, \hat{a}_1 \times \hat{a}_2]$

변위 벡터 $t$ 추정:

비용 함수를 최소화하는 최적의 스케일 팩터 $\hat{s}$ 는 $B$ 의 특이값 $w_1, w_2$ 를 이용하여 다음과 같이 계산된다.22
$\hat{s} = \frac{\text{trace}(\hat{A}^TB)}{2} = \frac{w_1 + w_2}{2}$
초기 관계식에서 $st = K^{-1}H_3$ ( $H_3$ 는 $H$ 의 세 번째 열)이므로, 최종 변위 벡터 $\hat{t}$ 는 다음과 같이 추정된다.22
$\hat{t} = \frac{K^{-1}H_3}{\hat{s}} = \frac{2K^{-1}H_3}{w_1 + w_2}$

이러한 수학적 과정을 통해, 의미론적 정합의 결과물로부터 강인하게 카메라의 정확한 지리적 위치와 방향을 복원할 수 있다.

4. 딥러닝 기반 Cross-View Geo-Localization (Deep Learning-based CVGL)

전통적인 접근법이 특정 의미론적 요소에 의존하는 한계를 가지는 반면, 딥러닝 기반 접근법은 이미지 전체의 복잡한 시각적 패턴을 종단간(end-to-end) 방식으로 학습하여 문제를 해결한다. 이 패러다임의 전환은 CVGL을 ’특징 공학(Feature Engineering)’의 영역에서 ’표현 학습(Representation Learning)’의 영역으로 이동시켰다. 최근에는 합성곱 신경망(CNN)의 한계를 넘어 트랜스포머(Transformer)와 같은 새로운 ’아키텍처 혁신(Architectural Innovation)’으로 발전하고 있다.

4.1 기본 파이프라인과 샴 네트워크 (Fundamental Pipeline and Siamese Networks)

4.1.1 문제 재정의: 이미지 검색(Image Retrieval)으로의 전환

딥러닝 기반 CVGL은 문제를 이미지 검색(Image Retrieval) 문제로 재정의하는 것에서 출발한다.9 이 관점에서, 위치를 모르는 지상 뷰 쿼리 이미지 $Q$ 가 주어졌을 때, 목표는 GPS 좌표가 태깅된 대규모 항공 뷰 참조 이미지 데이터베이스 $\{A_i\}$ 내에서 $Q$ 와 동일한 장소를 촬영한 이미지 $A^*$ 를 찾는 것이다. 이는 유사도 함수 $S(Q, A_i)$ 를 최대화하는 $A_i$ 를 찾는 것과 같다.9 최적의 참조 이미지 $A^*$ 가 검색되면, 그 이미지에 부여된 GPS 좌표가 쿼리 이미지 $Q$ 의 위치로 추정된다.12

이러한 검색 기반 파이프라인은 두 가지 핵심 요소로 구성된다 12:

특징 추출기(Feature Extractor): 지상 뷰와 항공 뷰 이미지의 시각적 내용을 시점 변화에 강인한 고정된 차원의 벡터, 즉 임베딩(Embedding)으로 변환하는 역할을 한다.
유사도 측정 및 검색(Similarity Metric & Search): 쿼리 이미지의 임베딩과 데이터베이스 내 모든 참조 이미지의 임베딩 간의 유사도를 계산하고, 가장 높은 유사도를 가진 이미지를 순위화하여 반환한다.

4.1.2 샴 네트워크(Siamese Network) 아키텍처

이러한 파이프라인을 구현하기 위한 표준적인 딥러닝 아키텍처가 바로 샴 네트워크(Siamese Network)이다.10 ’샴 쌍둥이’라는 이름에서 알 수 있듯이, 이 네트워크는 동일한 구조를 가진 두 개 이상의 브랜치(Branch)를 가진다. CVGL에서는 일반적으로 두 개의 브랜치를 사용하며, 하나는 지상 뷰 이미지를, 다른 하나는 항공 뷰 이미지를 입력으로 받는다.3

각 브랜치는 보통 VGG, ResNet과 같은 사전 훈련된 CNN을 기반으로 하는 인코더(Encoder)로 구성된다. 이 인코더는 고차원의 이미지 픽셀 공간을 저차원의 고밀도 특징 공간(Embedding Space)으로 매핑하는 함수 f(⋅) 역할을 한다. 즉, 지상 이미지 $I_g$ 는 $f_g(I_g) = v_g$ 로, 항공 이미지 $I_a$ 는 $f_a(I_a) = v_a$ 로 변환된다. 여기서 $v_g$ 와 $v_a$ 는 특징 벡터(임베딩)이다. 두 브랜치는 동일한 가중치를 공유(weight sharing)할 수도 있고, 각 뷰의 특성을 더 잘 학습하기 위해 독립적인 가중치를 가질 수도 있다.3

샴 네트워크의 핵심 목표는 특징 공간 자체를 학습하는 것이다. 즉, 동일한 장소를 촬영한 긍정 쌍(positive pair) $(I_g, I_a^+)$ 의 임베딩 $v_g$ 와 $v_a^+$ 는 특징 공간에서 서로 가까워지도록(거리가 작아지도록) 하고, 다른 장소를 촬영한 부정 쌍(negative pair) $(I_g, I_a^-)$ 의 임베딩 $v_g$ 와 $v_a^-$ 는 서로 멀어지도록(거리가 커지도록) 네트워크의 가중치를 업데이트한다. 이 과정을 ’메트릭 러닝(Metric Learning)’이라 하며, 이를 통해 네트워크는 시점 차이를 극복하고 의미론적으로 유사한 이미지를 가깝게 배치하는 표현(Representation)을 학습하게 된다.11

4.2 임베딩 공간 학습을 위한 손실 함수 (Loss Functions for Learning the Embedding Space)

메트릭 러닝을 위해 샴 네트워크를 훈련시키는 데에는 특수한 손실 함수가 사용된다. 대표적으로 대조 손실과 삼중항 손실이 있다.

4.2.1 대조 손실(Contrastive Loss)

대조 손실은 이미지 쌍(pair)을 입력으로 받아, 두 이미지가 유사한지(positive pair) 혹은 상이한지(negative pair)에 따라 다른 방식으로 손실을 계산한다.24

유사한 쌍 (Positive Pair, Y=0): 두 임베딩 벡터 간의 유클리드 거리 $D$ 자체를 손실로 사용하여, 이 거리를 최소화하도록 학습한다. 즉, 두 벡터가 최대한 가까워지도록 한다.
상이한 쌍 (Negative Pair, Y=1): 두 임베딩 벡터 간의 거리 $D$ 가 미리 정의된 마진(margin) $m$ 보다 작을 경우에만 페널티를 부과한다. 즉, 두 벡터가 최소한 $m$ 만큼은 떨어져 있도록 강제한다. 만약 거리가 이미 $m$ 보다 크다면 손실은 0이 된다.26

수학적으로 대조 손실 함수 $L_c$ 는 다음과 같이 정의된다. 여기서 $D = \lVert f(I_1) - f(I_2) \rVert_2$ 이다.28
$L_c = (1-Y) \cdot \frac{1}{2}D^2 + Y \cdot \frac{1}{2}\max(0, m - D)^2$

4.2.2 삼중항 손실(Triplet Loss)

삼중항 손실은 대조 손실보다 더 효과적인 학습을 위해 세 개의 샘플, 즉 기준이 되는 ‘앵커(Anchor)’, 앵커와 같은 클래스인 ‘포지티브(Positive)’, 그리고 앵커와 다른 클래스인 ’네거티브(Negative)’를 한 번에 사용한다.8

이 손실 함수의 목표는 앵커( $a$ )와 포지티브( $p$ ) 사이의 거리가 앵커( $a$ )와 네거티브( $n$ ) 사이의 거리보다 항상 특정 마진( $m$ ) 이상 작도록 만드는 것이다.29 이는 상대적인 거리 관계를 학습하도록 유도하며, 단순히 긍정 쌍을 가깝게, 부정 쌍을 멀게 하는 것보다 더 정교한 특징 공간을 형성하는 데 도움이 된다.

수학적으로 삼중항 손실 함수 $L_t$ 는 다음과 같이 정의된다. 여기서 $d(x, y)$ 는 두 임베딩 $x, y$ 간의 거리를 의미한다.24
$L_t = \max(d(a, p) - d(a, n) + m, 0)$
이 손실 함수는 $d(a, p) + m \le d(a, n)$ 조건을 만족할 때 0이 되며, 그렇지 않은 경우에만 페널티를 부과하여 네트워크를 업데이트한다.

손실 함수 (Loss Function)	수학적 공식 (Formula)	핵심 목표 (Objective)	입력 형태 (Input Type)
대조 손실 (Contrastive Loss)	$L = (1-Y)D^2 + Y \cdot \max(0, m - D)^2$	유사 쌍은 가깝게, 비유사 쌍은 마진 `m` 이상 멀게	이미지 쌍 (Pair)
삼중항 손실 (Triplet Loss)	$L = \max(d(a, p) - d(a, n) + m, 0)$	앵커-포지티브 거리가 앵커-네거티브 거리보다 마진 `m` 이상 작도록 강제	이미지 삼중항 (Triplet)

4.2.3 유사도 측정: 코사인 유사도(Cosine Similarity)

학습된 임베딩 공간에서 두 벡터의 유사도를 측정하는 데에는 유클리드 거리 외에 코사인 유사도가 널리 사용된다. 코사인 유사도는 두 벡터 사이의 각도의 코사인 값을 측정하며, 벡터의 크기(magnitude)와 무관하게 오직 방향의 유사성만을 고려한다.30

수학적으로 두 벡터 $A$ 와 $B$ 의 코사인 유사도는 다음과 같이 계산된다.31
$\text{Similarity} = \cos(\theta) = \frac{A \cdot B}{\lVert A \rVert \lVert B \rVert}$
이 값은 -1(완전히 반대 방향)에서 +1(완전히 같은 방향) 사이의 값을 가지며, 0은 두 벡터가 직교함을 의미한다.31 이 방식은 이미지의 밝기나 대비 변화로 인해 특징 벡터의 전체적인 크기가 변하더라도, 특징 간의 상대적인 비율(즉, 방향)은 유지될 가능성이 높다는 점에서 CVGL에 적합하다.

4.3 시점 차이 극복을 위한 기법

샴 네트워크와 메트릭 러닝만으로는 극심한 기하학적 도메인 격차를 완전히 해소하기 어렵다. 이를 보완하기 위해 다양한 기법들이 제안되었다.

4.3.1 기하학적 사전 지식 활용: 극좌표 변환(Polar Transform)

극좌표 변환은 항공 뷰 이미지에 기하학적 변환을 가하여 지상 뷰 파노라마 이미지와 유사한 구조로 만드는 기법이다.12 지상 파노라마 이미지에서 수평선은 360도 방향을, 수직선은 시야각을 나타낸다. 평평한 지면을 가정할 때, 이는 항공 뷰에서의 동심원(거리)과 방사형 선(방향)에 대응된다.33

극좌표 변환은 항공 이미지를 중심점을 기준으로 펼쳐서, 동심원 구조를 수평선으로, 방사형 구조를 수직선으로 매핑한다. 이렇게 변환된 항공 이미지는 지상 파노라마 이미지와 유사한 공간적 레이아웃을 가지게 되어, CNN이 두 뷰 간의 특징을 대응시키기 훨씬 쉬워진다.33 이 기법은 신경망이 복잡한 기하학적 관계를 처음부터 학습해야 하는 부담을 덜어주어 성능 향상에 크게 기여했다.33 그러나 이 방법은 쿼리 이미지의 위치가 항공 이미지의 정확한 중앙에 위치해야 한다는 강한 가정을 전제로 하며, 이 가정이 깨질 경우 심각한 왜곡이 발생하여 성능이 저하될 수 있다.11

4.3.2 생성적 적대 신경망(GANs)을 이용한 도메인 변환

또 다른 접근법은 생성 모델, 특히 GAN(Generative Adversarial Networks)을 사용하여 한 도메인의 이미지를 다른 도메인의 스타일로 변환하는 것이다.8 예를 들어, 지상 뷰 이미지를 입력으로 받아 해당 장소의 항공 뷰 이미지를 ’생성’하거나 그 반대의 변환을 수행한다. 이렇게 생성된 이미지는 실제 참조 이미지와 시점 및 외형이 유사해지므로, 도메인 격차가 줄어든 상태에서 매칭을 수행할 수 있다. 이 방식은 유연성이 높지만, 고품질의 이미지를 생성하기 위한 학습이 매우 불안정하고 계산 비용이 많이 든다는 단점이 있다.12

4.4 트랜스포머 기반 접근법의 부상

최근 CVGL 분야에서는 CNN의 한계를 극복하기 위한 대안으로 트랜스포머(Transformer) 아키텍처가 주목받고 있다. 이는 문제 해결의 관점을 ’어떻게 좋은 특징을 학습할 것인가’에서 ’어떤 아키텍처가 이 문제에 근본적으로 더 적합한가’로 전환시켰다.

4.4.1 CNN의 한계와 트랜스포머의 장점

CNN은 커널(kernel)을 이용해 이미지의 지역적인(local) 패턴을 인식하고, 이를 계층적으로 쌓아 더 복잡한 특징을 학습하는 데 매우 효과적이다. 하지만 이러한 ’지역성(locality)’과 ’병진 등변성(translation equivariance)’이라는 귀납적 편향(inductive bias)은 CVGL 문제에서 한계로 작용한다. 지상 뷰에서 가까이 있는 두 객체가 항공 뷰에서는 멀리 떨어져 보이는 등, 두 뷰 간의 공간적 대응 관계는 매우 비지역적(non-local)이기 때문이다. CNN이 이러한 장거리 의존성(long-range dependency)을 파악하기 위해서는 수많은 레이어를 거쳐야만 한다.35

반면, 비전 트랜스포머(Vision Transformer, ViT)는 이미지를 여러 개의 패치(patch)로 나눈 뒤, 셀프 어텐션(Self-Attention) 메커니즘을 통해 모든 패치 쌍 간의 관계를 한 번에 계산한다.36 이를 통해 이미지의 전역적인 문맥(global context)을 효과적으로 모델링할 수 있다. 또한, 각 패치에 더해지는 위치 인코딩(Positional Encoding)은 모델이 각 패치의 절대적, 상대적 위치 정보를 명시적으로 활용할 수 있게 하여, 두 뷰 간의 복잡한 기하학적 대응 관계를 학습하는 데 유리하다.12

4.4.2 TransGeo 모델 심층 분석

TransGeo는 이러한 트랜스포머의 장점을 극대화하여 CVGL 문제를 해결한 대표적인 모델이다.35 이 모델은 극좌표 변환과 같은 외부적인 기하학적 사전 지식에 의존하지 않고, 순수한 트랜스포머 아키텍처만으로 최첨단 성능을 달성했다.

TransGeo의 핵심 혁신 중 하나는 ’어텐션 기반 비균일 크롭핑(Attention-guided Non-uniform Cropping)’이다.35 이 기법은 다음과 같이 작동한다:

트랜스포머가 이미지를 처리하는 과정에서 생성되는 어텐션 맵(attention map)을 분석한다. 이 맵은 모델이 이미지의 어떤 부분에 더 ’주목’하는지를 나타낸다.
지상 뷰 이미지의 하늘 부분이나 항공 뷰 이미지에서 건물에 가려진 영역처럼 정보량이 적고 매칭에 불필요한 패치들은 낮은 어텐션 값을 가진다.
이러한 정보량이 적은 패치들을 동적으로 식별하고 입력에서 제거한다. 이를 통해 불필요한 계산을 줄여 모델의 효율성을 높인다.
여기서 절약된 계산 자원을 정보량이 많은 중요한 패치들의 해상도를 높이는 데 재할당한다. 예를 들어, 더 작은 크기로 패치를 나누어 더 세밀한 특징을 학습하게 한다.

이 “주목하고 확대하는(attend and zoom-in)” 전략은 인간이 복잡한 장면을 인식하는 방식과 유사하며, 제한된 계산 자원 내에서 성능을 극대화하는 매우 효과적인 방법이다.35

방법론 (Methodology)	핵심 원리 (Core Principle)	장점 (Pros)	단점 (Cons)	주요 참조 (Key Snippets)
의미론적 접근 (Semantic)	도로망, 건물 등 의미론적 요소 정합	조명/계절 변화에 강인, 해석 가능	객체 탐지 성능에 의존, 일반화 어려움	10
샴 CNN (Siamese CNN)	메트릭 러닝으로 시점 불변 특징 학습	종단간 학습, 우수한 특징 표현	전역 문맥 파악 한계, 기하학적 변환에 취약	3
+ 극좌표 변환 (+ Polar Transform)	기하학적 사전 지식 주입으로 문제 단순화	시점 차이 완화, 성능 향상	정렬 가정 필요, 이미지 왜곡 발생	12
트랜스포머 (Transformer)	셀프 어텐션으로 전역 관계 및 기하학 학습	강력한 전역 모델링, 유연성, 고성능	대규모 데이터 필요, 계산 복잡도 높음	35

5. 고급 주제 및 미래 연구 방향

CVGL 연구는 벤치마크 데이터셋에서 높은 정확도를 달성하는 단계를 넘어, 실제 세계의 복잡하고 예측 불가능한 환경에서 신뢰성 있게 작동하는 기술을 개발하는 새로운 단계로 진입하고 있다. 이는 ’정밀도 경쟁’에서 ’실용성과 강인성 확보’로 연구의 초점이 이동하고 있음을 의미한다. 현재와 미래의 연구는 데이터 부족, 환경 변화, 동적 상황과 같은 현실 세계의 난제들을 어떻게 극복할 것인가에 집중되고 있다.

5.1 데이터셋의 중요성과 한계

5.1.1 주요 벤치마크 데이터셋

CVGL 연구의 발전은 CVUSA 11, CVACT 16, VIGOR 16와 같은 대규모 공개 벤치마크 데이터셋에 크게 의존해왔다. 이 데이터셋들은 수십만 개의 지상-항공 이미지 쌍을 제공하여 다양한 딥러닝 모델의 성능을 공정하게 비교하고 평가하는 기준 역할을 한다. 각 데이터셋은 지상 뷰 이미지의 형태(예: 360도 파노라마 vs. 전방 시야각), 지상-항공 이미지 간의 정렬 여부 등에서 차이를 보여, 다양한 시나리오에서의 모델 성능을 검증하는 데 사용된다.

5.1.2 데이터 의존성 및 수집 비용

그러나 현재의 최첨단(SOTA) 모델들은 대부분 이러한 대규모의, 정확하게 위치가 정렬된 레이블링된 데이터에 기반한 지도 학습(Supervised Learning) 방식으로 훈련된다.14 실제 세계에서 이처럼 정밀한 지상-항공 이미지 쌍을 수집하고 주석을 다는 작업은 GPS/INS 장비가 장착된 고가의 차량과 막대한 인력이 필요하며, 이는 기술을 새로운 지역으로 확장하는 데 큰 장벽으로 작용한다.14

5.1.3 미래 방향 - 비지도/준지도 학습

이러한 데이터 비용 문제를 해결하기 위해, 레이블이 없는 방대한 양의 데이터를 활용하려는 연구가 활발히 진행되고 있다.

비지도 학습(Unsupervised Learning): 지상-항공 이미지 간의 대응 관계 레이블이 전혀 없는 상태에서 학습을 진행한다. 초기에는 기하학적 변환(예: 구면 투영) 등을 통해 매우 부정확하더라도 초기 의사 레이블(pseudo-label)을 생성하고, 점진적인 재순위화(re-ranking)와 클러스터링을 통해 레이블의 품질을 개선하며 모델을 학습시킨다.14
준지도 학습(Semi-supervised Learning): 소량의 레이블링된 데이터와 대량의 레이블링되지 않은 데이터를 함께 사용하여 모델을 훈련시킨다. 이는 데이터 수집 비용과 모델 성능 사이의 현실적인 타협점을 제공한다.

5.2 실제 환경에서의 강인성

5.2.1 환경 변화에 대한 취약성

현재 SOTA 모델들은 CVUSA와 같은 표준 벤치마크 데이터셋에서는 90%를 넘는 높은 검색 정확도를 보이지만, 이는 대부분 맑은 날에 촬영된 깨끗한 이미지들을 대상으로 한다. 실제 환경에서 마주치는 악천후(비, 눈, 안개), 극단적인 조명 변화(야간, 역광), 카메라 센서 노이즈와 같은 이미지 왜곡(corruption)에 대해서는 성능이 급격히 저하되는 취약점을 보인다.17 이는 자율 주행과 같이 안전이 중요한(safety-critical) 응용 분야에 CVGL 기술을 적용하는 데 있어 심각한 걸림돌이다.

5.2.2 동적 환경 문제

도시 환경은 정적이지 않다. 새로운 건물이 들어서고, 도로가 확장되며, 계절에 따라 나무의 모습이 바뀌는 등 장기적인 변화가 발생한다. 또한, 차량, 보행자, 임시 공사 구조물 등 단기적인 동적 요소들도 끊임없이 변한다.1 현재 모델들은 대부분 정적인 장면에 대해 학습되므로, 이러한 동적인 변화에 강인한, 시간 불변적인(time-invariant) 특징을 학습하는 것이 중요한 과제로 남아있다.

5.2.3 미래 방향 - 강인성 벤치마크 및 적응형 모델

이러한 강인성 문제를 해결하기 위해 다음과 같은 연구가 필요하다.

강인성 벤치마크 구축: 실제 환경에서 발생하는 다양한 왜곡(날씨, 조명 등)을 체계적으로 시뮬레이션하여 기존 데이터셋을 확장하고, 이를 통해 모델의 강인성을 정량적으로 평가할 수 있는 새로운 벤치마크를 구축하는 연구가 진행 중이다.17
도메인 적응 및 일반화: 학습 데이터에 존재하지 않았던 새로운 환경(예: 다른 도시, 다른 날씨)에 대해서도 모델이 일반화된 성능을 보이도록 하는 도메인 적응(Domain Adaptation) 및 도메인 일반화(Domain Generalization) 기술 개발이 중요하다.18
생성 모델 활용: 확산 모델(Diffusion Model)과 같은 최신 생성 모델을 활용하여, 악천후 조건의 이미지를 사실적으로 생성하여 학습 데이터를 증강하거나, 왜곡된 이미지를 깨끗한 이미지로 복원하는 전처리 단계를 추가하는 연구가 유망하다.18

5.3 확장성 및 효율성 문제

5.3.1 대규모 데이터베이스 검색

CVGL을 도시 전체, 국가, 나아가 전 세계 단위로 확장하기 위해서는 수백만, 수십억 장의 참조 이미지를 다루어야 한다. 쿼리 이미지가 주어질 때마다 이 모든 참조 이미지의 특징 벡터와 일일이 유사도를 비교하는 것은 엄청난 계산 시간을 요구하여 실시간 응용에 부적합하다.38 따라서, 대규모 벡터 공간에서 효율적으로 최근접 이웃(Nearest Neighbor)을 검색할 수 있는 FAISS와 같은 벡터 인덱싱 및 검색 기술의 도입이 필수적이다.40

5.3.2 쿼리 형태의 진화

지금까지의 연구는 대부분 단일 정지 이미지를 쿼리로 사용하는 것을 가정했다.15 하지만 자율 주행 차량이나 보행자는 연속적인 이미지 스트림(비디오)을 통해 주변 환경을 인식한다. 단일 이미지는 특정 방향의 제한된 정보만을 담고 있어 오해의 소지가 크다.

5.3.3 미래 방향 - 다중 이미지 및 시퀀스 기반 지역화

이러한 한계를 극복하기 위해, 보다 현실적인 쿼리 형태를 사용하는 새로운 연구 방향이 제시되고 있다.

이미지 셋 기반 지역화 (Set-CVGL): 인간이 낯선 곳에서 위치를 파악할 때 주변을 둘러보는 행동에서 영감을 얻었다. 특정 순서 없이 여러 방향에서 촬영된 이미지 묶음(set)을 쿼리로 사용하여, 단일 이미지보다 훨씬 풍부한 문맥 정보를 활용함으로써 위치 추정의 정확도와 신뢰도를 획기적으로 높이는 것을 목표로 한다.15
비디오 시퀀스 기반 지역화: 움직이는 에이전트에서 얻어지는 연속적인 비디오 프레임을 쿼리로 사용한다. 이는 시간적 일관성(temporal consistency) 정보를 활용하여, 각 프레임의 위치 추정 오차를 보정하고 더 부드럽고 안정적인 위치 추적을 가능하게 한다.4

이러한 접근법들은 CVGL 기술을 정적인 ‘이미지 검색’ 문제에서 동적인 ‘상태 추정(State Estimation)’ 문제로 발전시키며, 실제 응용 시나리오와의 간극을 줄이는 데 기여할 것이다.

6. 결론

6.1 핵심 기술 요약 및 현재 기술 수준 평가

항공 이미지 매칭을 통한 지리적 위치 추정(CVGL) 기술은 지난 십여 년간 괄목할 만한 발전을 이루었다. 초기의 연구는 도로망이나 건물과 같은 명시적인 의미론적 정보에 의존하는 방식에서 출발했다. 이후 딥러닝의 부상과 함께, 샴 CNN 아키텍처와 메트릭 러닝을 통해 시점 변화에 불변하는 특징 표현을 종단간으로 학습하는 패러다임이 주류가 되었다. 최근에는 CNN의 내재적 한계를 극복하고 이미지의 전역적 문맥과 장거리 공간 관계를 효과적으로 모델링하는 트랜스포머 기반 아키텍처가 등장하여 성능을 한 단계 끌어올렸다.

현재 CVGL 기술은 통제된 환경의 표준 벤치마크 데이터셋에서는 인간의 능력을 상회하는 높은 수준의 정확도를 달성하고 있다. 하지만 이러한 성과는 대부분 이상적인 조건 하에서 얻어진 것으로, 실제 세계에서 마주치는 극심한 외형 변화(악천후, 조명), 동적인 환경 변화, 그리고 대규모 데이터베이스의 확장성 문제에 대한 강인성은 여전히 해결해야 할 핵심 과제로 남아있다. 즉, 실험실 수준의 ’정확도’와 실제 현장에서 요구되는 ‘신뢰성’ 사이에는 아직 명확한 간극이 존재한다.

6.2 향후 발전 가능성 및 산업적 파급 효과 전망

향후 CVGL 연구는 이러한 간극을 메우는 방향으로 전개될 것이다. 레이블링 비용의 한계를 극복하기 위한 비지도/준지도 학습, 실제 환경의 불확실성에 대응하기 위한 강인성 및 일반화 성능 향상, 그리고 단일 이미지를 넘어 비디오 시퀀스나 이미지 셋을 활용하는 동적 지역화 기술이 핵심 연구 주제가 될 것이다.

이러한 과제들이 성공적으로 해결된다면, CVGL 기술의 적용 범위는 무한히 확장될 잠재력을 가지고 있다. GPS에 전적으로 의존하지 않는 완전 자율 주행 자동차, 오차 없는 배송을 수행하는 자율 비행 드론, 실제 세계와 가상 세계를 완벽하게 융합하는 개인화된 증강 현실 서비스, 그리고 지리 정보가 없는 방대한 미디어 데이터의 자동 아카이빙 등, CVGL은 4차 산업혁명의 다양한 핵심 응용 분야에서 필수적인 기반 기술로 자리매김할 것이다. 이는 단순한 위치 찾기를 넘어, 기계가 인간처럼 시각적으로 공간을 이해하고 상호작용하는 시대를 여는 중요한 열쇠가 될 것이다.

7. 참고 자료

Visual Geo-Localization from images - arXiv, accessed August 18, 2025, https://arxiv.org/html/2407.14910v1
CVPR 2023: A Comprehensive Tour and Recent Advancements …, accessed August 18, 2025, https://www.sri.com/research/information-computing-sciences/computer-vision/cvpr-2023-a-comprehensive-tour-and-recent-advancements-toward-real-world-visual-geo-localization/
UAV Geo-Localization Dataset and Method Based on Cross-View Matching - PMC, accessed August 18, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11548418/
Cross-View Image Matching for Geo-Localization in Urban Environments - ResearchGate, accessed August 18, 2025, https://www.researchgate.net/publication/320971103_Cross-View_Image_Matching_for_Geo-Localization_in_Urban_Environments
Leveraging cross-view geo-localization with ensemble learning and temporal awareness, accessed August 18, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10062671/
Revisiting Cross-View Localization from Image Matching - arXiv, accessed August 18, 2025, https://arxiv.org/html/2508.10716v1
The siamese network that learns to re-identify objects between a pair… - ResearchGate, accessed August 18, 2025, https://www.researchgate.net/figure/The-siamese-network-that-learns-to-re-identify-objects-between-a-pair-of-frames-proposed_fig34_375746251
CVPR 2021 tutorial on Cross-view and Cross-modal Visual Geo …, accessed August 18, 2025, https://www.sri.com/research/information-computing-sciences/computer-vision/cvpr-2021-tutorial-on-cross-view-and-cross-modal-visual-geo-localization/
(PDF) Cross-View Geo-Localization: A Survey - ResearchGate, accessed August 18, 2025, https://www.researchgate.net/publication/386207589_Cross-view_Geo-localization_A_Survey
Cross-View Image Matching for Geo … - CVF Open Access, accessed August 18, 2025, https://openaccess.thecvf.com/content_cvpr_2017/papers/Tian_Cross-View_Image_Matching_CVPR_2017_paper.pdf
Feature Relation Guided Cross-View Image Based Geo-Localization - MDPI, accessed August 18, 2025, https://www.mdpi.com/2072-4292/15/20/5029
GeoViewMatch: A Multi-Scale Feature-Matching Network for Cross …, accessed August 18, 2025, https://www.mdpi.com/2072-4292/16/4/678
CVPR Tutorial A Comprehensive Tour and Recent Advancements toward Real-world Visual Geo-Localization, accessed August 18, 2025, https://cvpr.thecvf.com/virtual/2023/tutorial/18566
Unleashing Unlabeled Data: A Paradigm for Cross-View Geo-Localization, accessed August 18, 2025, https://openaccess.thecvf.com/content/CVPR2024/papers/Li_Unleashing_Unlabeled_Data_A_Paradigm_for_Cross-View_Geo-Localization_CVPR_2024_paper.pdf
Cross-View Image Set Geo-Localization - arXiv, accessed August 18, 2025, https://arxiv.org/html/2412.18852v1
Cross-view image geo-localization with Panorama-BEV Co-Retrieval Network - European Computer Vision Association, accessed August 18, 2025, https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05379.pdf
Benchmarking the Robustness of Cross-view Geo-localization Models | OpenReview, accessed August 18, 2025, https://openreview.net/forum?id=x8mzNomCRe
AGEN: Adaptive Error Control-Driven Cross-View Geo-Localization …, accessed August 18, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC12196939/
Visual Geo-Localization Based on Spatial Structure Feature Enhancement and Adaptive Scene Alignment - MDPI, accessed August 18, 2025, https://www.mdpi.com/2079-9292/14/7/1269
Introduction to General Visual Geo-Localization | SRI International, accessed August 18, 2025, https://www.sri.com/wp-content/uploads/2023/06/Han-Pang-Chiu_Introduction-to-General-Visual-GeoLocalization.pdf
Aerial image geolocalization from recognition and matching of roads and intersections - BMVA Archive, accessed August 18, 2025, https://www.bmva-archive.org.uk/bmvc/2016/papers/paper118/paper118.pdf
Geolocalization from Aerial Sensing Images Using Road Network Alignment - MDPI, accessed August 18, 2025, https://www.mdpi.com/2072-4292/16/3/482
Optimal Feature Transport for Cross-View Image Geo … - AAAI, accessed August 18, 2025, https://cdn.aaai.org/ojs/6875/6875-13-10104-1-10-20200525.pdf
Triplet loss - Wikipedia, accessed August 18, 2025, https://en.wikipedia.org/wiki/Triplet_loss
Understanding Ranking Loss, Contrastive Loss, Margin Loss, Triplet Loss, Hinge Loss and all those confusing names - Raúl Gómez blog, accessed August 18, 2025, https://gombru.github.io/2019/04/03/ranking_loss/
Losses explained: Contrastive Loss | by Maksym Bekuzarov | Medium, accessed August 18, 2025, https://medium.com/@maksym.bekuzarov/losses-explained-contrastive-loss-f8f57fe32246
An Introduction to Contrastive Learning | Baeldung on Computer Science, accessed August 18, 2025, https://www.baeldung.com/cs/contrastive-learning
What is the difference between triplet and contrastive loss?, accessed August 18, 2025, https://www.educative.io/answers/what-is-the-difference-between-triplet-and-contrastive-loss
Triplet Loss: Intro, Implementation, Use Cases - V7 Labs, accessed August 18, 2025, https://www.v7labs.com/blog/triplet-loss
medium.com, accessed August 18, 2025, https://medium.com/advanced-deep-learning/understanding-vector-similarity-b9c10f7506de#:~:text=Cosine%20Similarity%20only%20considers%20the,the%20vector%20magnitudes%20to%201.
Cosine similarity - Wikipedia, accessed August 18, 2025, https://en.wikipedia.org/wiki/Cosine_similarity
Understanding Cosine Similarity in Python with Scikit-Learn - Memgraph, accessed August 18, 2025, https://memgraph.com/blog/cosine-similarity-python-scikit-learn
Where Am I Looking At? Joint Location and … - CVF Open Access, accessed August 18, 2025, https://openaccess.thecvf.com/content_CVPR_2020/papers/Shi_Where_Am_I_Looking_At_Joint_Location_and_Orientation_Estimation_CVPR_2020_paper.pdf
Where Am I Looking At? Joint Location and Orientation Estimation by Cross-View Matching - CVPR 2020 Open Access Repository, accessed August 18, 2025, https://openaccess.thecvf.com/content_CVPR_2020/html/Shi_Where_Am_I_Looking_At_Joint_Location_and_Orientation_Estimation_CVPR_2020_paper.html
TransGeo: Transformer Is All You Need for … - CVF Open Access, accessed August 18, 2025, https://openaccess.thecvf.com/content/CVPR2022/papers/Zhu_TransGeo_Transformer_Is_All_You_Need_for_Cross-View_Image_Geo-Localization_CVPR_2022_paper.pdf
Cross-view Geo-localization with Layer-to-Layer Transformer, accessed August 18, 2025, https://proceedings.neurips.cc/paper/2021/file/f31b20466ae89669f9741e047487eb37-Paper.pdf
CVPR Poster Unleashing Unlabeled Data: A Paradigm for Cross-View Geo-Localization, accessed August 18, 2025, https://cvpr.thecvf.com/virtual/2024/poster/30897
State-of-the-Art in Visual Geo-localization - Martin Cadik, accessed August 18, 2025, http://cadik.posvete.cz/papers/brejcha-cadik17geolocalization_methods_survey.pdf
CrossLocate: Cross-Modal Large-Scale Visual Geo-Localization in Natural Environments Using Rendered Modalities - CVF Open Access, accessed August 18, 2025, https://openaccess.thecvf.com/content/WACV2022/papers/Tomesek_CrossLocate_Cross-Modal_Large-Scale_Visual_Geo-Localization_in_Natural_Environments_Using_Rendered_WACV_2022_paper.pdf
City-scale Cross-view Geolocalization with Generalization to Unseen Environments, accessed August 18, 2025, http://dspace.mit.edu/handle/1721.1/153793