Booil Jung

강인한 시각적 측위를 위한 시맨틱 세그멘테이션

시각적 측위(Visual Localization)는 알려진 환경 내에서 카메라의 정밀한 6자유도(6-DoF, Degrees of Freedom) 자세-위치와 방향-를 추정하는 기술이다.1 이 기술은 자율 로봇, 자율주행 자동차, 증강현실(AR)과 같은 현대 시스템의 핵심 구성 요소로 자리 잡았다.1

전통적인 시각적 측위 방법론, 흔히 구조 기반 측위(Structure-based Localization)라 불리는 접근법은 질의 이미지(query image)와 사전에 구축된 3D 지도 사이에서 저수준의 수작업 특징점(handcrafted local features)을 매칭하는 방식에 의존한다. SIFT(Scale-Invariant Feature Transform), SURF(Speeded Up Robust Features), ORB(Oriented FAST and Rotated BRIEF)와 같은 특징점들은 이미지 내 픽셀 강도 패턴에 기반하여 추출된다.4 그러나 이러한 저수준 특징점들은 조명, 날씨, 계절의 변화와 같은 외형적 변화에 매우 취약하다는 근본적인 한계를 지닌다.6 예를 들어, 낮과 밤, 여름과 겨울 사이의 극적인 외형 변화는 특징점 검출과 기술(description)을 불안정하게 만들어 장기적인 자율 운영 환경에서의 신뢰성을 심각하게 저해한다. 또한, 복도나 창고와 같이 시각적으로 반복되거나 질감이 부족한 환경에서는 구별 가능한 특징점을 충분히 추출하기 어려워 성능이 급격히 저하된다.9

이러한 한계를 극복하기 위한 대안으로 시맨틱 측위(Semantic Localization)가 부상했다. 시맨틱 측위는 장면에 대한 고수준의 이해를 활용하는 접근법으로, 이미지 내 픽셀이나 영역에 ‘도로’, ‘건물’, ‘하늘’과 같은 의미론적 레이블(class label)을 할당한다.11 이 접근법의 핵심적인 강점은 강인함(robustness)에 있다. 조명이나 계절의 변화로 인해 건물의 픽셀 수준 외형이 극적으로 변하더라도, ‘건물’이라는 의미론적 본질은 변하지 않기 때문이다.1 데이터 연관(data association)의 단위를 픽셀 수준에서 객체 수준으로 끌어올림으로써, 시스템은 환경에 대해 인간과 유사한 수준의 이해를 달성할 수 있게 되며, 이는 단순한 위치 추정을 넘어 더 복잡한 작업을 수행하고 상호작용할 수 있는 기반을 마련한다.13

이러한 패러다임의 전환은 단순히 측위의 정확도를 높이는 것을 넘어, ‘지도’의 본질에 대한 근본적인 변화를 의미한다. 전통적인 기하학적 지도, 예를 들어 SIFT 특징점 클라우드는 “세상이 기하학적 관점에서 어떻게 보이는가?”라는 질문에 답한다.5 반면, 시맨틱 지도는 “세상은 무엇으로 구성되어 있는가?”라는 질문에 답한다.12 이 전환은 시스템의 이해 수준을 순수한 지각적(perceptual) 단계에서 인지적(cognitive) 단계로 격상시킨다. 이러한 인지적 지도는 로봇이 “주방으로 가라” 또는 “잔디밭을 피하라”와 같은 의미론적 지시에 따라 작업을 수행할 수 있게 하는 핵심 동력이다.2 순수한 기하학적 지도만으로는 이러한 고수준의 자율성을 달성하는 것이 불가능하다. 따라서 시맨틱 측위는 단순히 더 강인하게 자세를 찾는 방법이 아니라, 고수준 자율성을 실현하기 위한 필수적인 기술이라고 할 수 있다.

시맨틱 측위를 이해하기 위해서는 먼저 그 기반이 되는 다양한 이미지 세그멘테이션(Image Segmentation) 기술을 명확히 구분해야 한다.

시맨틱 세그멘테이션 (Semantic Segmentation): 이 기술은 이미지의 모든 픽셀을 사전에 정의된 클래스 집합 중 하나로 분류하는 핵심적인 작업이다.11 이 방식은 동일한 클래스에 속하는 다른 인스턴스(instances)를 구분하지 않는다. 예를 들어, 이미지에 여러 대의 자동차가 있더라도 모든 자동차 픽셀은 단순히 ‘자동차’라는 단일 레이블로 통합된다.17 이 작업의 목표는 이미지 전체에 걸쳐 모든 픽셀에 대한 레이블을 예측하는 것이므로, 밀집 예측(dense prediction)이라고도 불린다.11
인스턴스 세그멘테이션 (Instance Segmentation): 이 기술은 한 단계 더 나아가, 동일한 클래스에 속하는 개별 객체 인스턴스를 각각 탐지하고 분할한다.17 예를 들어, 이미지에 자동차 두 대가 있다면, 각 자동차는 고유한 마스크(mask)를 할당받아 시스템이 두 대의 자동차를 개별적으로 인식하고 수를 셀 수 있게 한다.17
파놉틱 세그멘테이션 (Panoptic Segmentation): 이 기술은 시맨틱 세그멘테이션과 인스턴스 세그멘테이션을 통합한 가장 포괄적인 형태의 장면 이해 방식이다.17 파놉틱 세그멘테이션은 이미지의 모든 픽셀에 클래스 레이블을 할당하는 동시에, 자동차나 사람과 같이 셀 수 있는 객체(“things”)에 대해서는 고유한 인스턴스 ID를 부여한다. 반면, 하늘이나 도로와 같이 셀 수 없는 배경 영역(“stuff”)은 단일 시맨틱 영역으로 처리한다.17

이 세 가지 기술은 모두 가치 있는 정보를 제공하지만, 시맨틱 측위의 기초를 이루는 것은 주로 시맨틱 세그멘테이션이다. 도로, 건물, 보도와 같이 크고 정적인 구조물에 대한 안정적인 클래스 수준의 정보를 제공하는 능력은 강인한 기준 좌표계를 설정하는 데 특히 중요하기 때문이다.12

측위 작업에서 이 세 가지 세그멘테이션 패러다임 중 어떤 것을 선택하느냐는 의미론적 풍부함과 계산적 집중도 사이의 근본적인 트레이드오프를 드러낸다. 시맨틱 세그멘테이션은 ‘도로’나 ‘건물’과 같은 넓고 안정적인 맥락 정보를 제공하여, 거칠지만 강인한 측위에 매우 효과적이다.20 반면, 인스턴스 세그멘테이션은 ‘car_1’, ‘pedestrian_5’와 같은 동적 객체를 추적하고 필터링하는 데 필수적이며, 이는 측위에서 가장 큰 도전 과제 중 하나이다.21 파놉틱 세그멘테이션은 가장 완벽한 장면 이해를 제공하지만, 그만큼 가장 높은 계산 비용과 복잡성을 수반한다.17 이러한 이유로, 최신 시스템들은 종종 하이브리드 접근법을 채택한다. 즉, 정적인 배경 요소(지도)에는 시맨틱 세그멘테이션을, 동적인 전경 요소(장애물)에는 인스턴스 세그멘테이션을 사용하는 것이다. 이는 단일 세그멘테이션 패러다임만으로는 충분하지 않으며, 미래의 시스템은 작업의 성격에 따라 계산 자원을 동적으로 할당하는 방향으로 발전할 것임을 시사한다. 일반적인 주행에는 거친 시맨틱 이해를 사용하고, 특정 객체와 상호작용하거나 복잡한 교통 상황을 헤쳐나갈 때는 세밀한 인스턴스 수준의 분석을 수행하는 방식이 될 것이다.

특징	시맨틱 세그멘테이션	인스턴스 세그멘테이션	파놉틱 세그멘테이션
핵심 목표	모든 픽셀 분류	모든 객체 인스턴스 탐지 및 분할	분류와 인스턴스 탐지의 통합
출력	픽셀 단위 클래스 맵	인스턴스 단위 마스크와 클래스 레이블	모든 픽셀에 대한 클래스 및 인스턴스 ID를 포함한 통합 맵
다중 인스턴스 처리	동일 클래스의 모든 인스턴스 병합	각 인스턴스를 개별적으로 처리	‘Things’는 분리, ‘Stuff’는 병합
주요 측위 활용 사례	대규모 정적 구조물(도로, 건물) 매핑	동적 객체(자동차, 보행자) 추적 및 필터링	복잡한 상호작용을 위한 포괄적인 장면 이해

표 1: 이미지 세그멘테이션 패러다임 비교

이 섹션에서는 시맨틱 측위 시스템의 기술적 구성 요소를 심층적으로 분석한다. 고수준의 파이프라인 개요에서 시작하여, 이를 가능하게 하는 구체적인 신경망 모델과 지도 표현 방식까지 단계적으로 해부한다.

대부분의 시맨틱 측위 시스템은 크게 두 단계의 프로세스를 따른다: 오프라인 지도 구축 단계와 온라인 측위 단계이다.1

오프라인 단계: 시맨틱 지도 생성
1. 데이터 수집: 대상 환경에서 카메라, LiDAR, IMU와 같은 센서를 사용하여 데이터를 수집한다. 이때, 지상 기준값(ground truth) 확보를 위해 고정밀 GPS-RTK를 함께 사용하는 경우가 많다.22
2. 기하학적 재구성: SfM(Structure-from-Motion)이나 SLAM(Simultaneous Localization and Mapping)과 같은 기술을 사용하여 초기 3D 기하학적 지도(예: 포인트 클라우드)를 구축한다.1
3. 시맨틱 주석: 3D 포인트들을 2D 이미지에 다시 투영(projection)한다. 이 이미지들은 시맨틱 세그멘테이션 네트워크를 통과하여 픽셀 단위의 레이블을 얻는다. 이 2D 픽셀의 시맨틱 레이블은 다시 3D 포인트에 전달되어, 각 포인트가 의미 정보를 갖는 3D 시맨틱 지도를 생성한다.1 이 과정은 자동화될 수 있어 수작업에 드는 막대한 노력을 크게 줄일 수 있다.20
온라인 단계: 질의 및 측위
1. 이미지 검색 (선택 사항): 새로운 질의 이미지가 들어오면, 종종 전역 기술자(global descriptor)를 사용하여 데이터베이스에서 가장 유사한 후보 이미지 집합을 검색한다. 이는 탐색 공간을 크게 줄여 효율성을 높인다.1
2. 질의 이미지 세그멘테이션: 질의 이미지는 오프라인 단계에서 사용된 것과 동일한 시맨틱 세그멘테이션 네트워크를 통과하여 2D 시맨틱 맵을 생성한다.25
3. 데이터 연관 및 자세 추정: 핵심 단계는 질의 이미지의 시맨틱 정보와 3D 시맨틱 지도 간의 대응 관계를 찾는 것이다. 이는 다음과 같은 방식으로 수행될 수 있다:
  - 2D 시맨틱 특징점과 3D 시맨틱 포인트를 직접 매칭 (2D-3D 매칭).27
  - 질의 이미지로부터 지역적인 3D 시맨틱 지도를 생성하고, 이를 전역 지도와 정합 (3D-3D 매칭).6
  - 3D 지도 포인트를 질의 이미지에 투영했을 때, 투영된 위치의 레이블과 질의 이미지의 세그멘테이션 레이블 간의 일관성을 최대화 (레이블 일관성 최대화).1
4. 자세 정제: 초기 거친 자세는 PnP(Perspective-n-Point) 솔버와 같은 최적화 기법을 사용하여 정제된다. 이 과정은 종종 RANSAC(Random Sample Consensus) 루프 내에서 수행되며, 시맨틱 일관성 점수를 가중치로 활용하여 강인함을 더한다.1

시맨틱 측위의 성능은 기반이 되는 세그멘테이션 네트워크의 성능에 크게 좌우된다. 이 분야의 발전은 맥락(context)과 해상도(resolution) 사이의 본질적인 긴장 관계를 해결하려는 노력의 역사와 같다.

FCN (Fully Convolutional Networks): 분류 네트워크(예: VGG)의 완전 연결 계층(fully-connected layer)을 합성곱 계층(convolutional layer)으로 대체하여 밀집 예측을 가능하게 한 혁신적인 모델이다.16 FCN은 깊은 아키텍처를 통해 맥락 정보를 우선시했지만, 풀링(pooling) 계층으로 인해 공간 해상도를 희생했다.30 이는 분류에는 유리했지만, 정밀한 경계가 필요한 측위에는 불리했다.18
U-Net과 인코더-디코더 아키텍처: 생물의학 이미지 분석을 위해 개발된 U-Net은 ‘스킵 연결(skip connections)’을 갖춘 인코더-디코더 구조를 도입했다.19 인코더는 이미지의 맥락적 정보를 압축하고, 디코더는 스킵 연결을 통해 초기 계층의 고해상도 특징을 전달받아 정밀한 공간적 디테일을 복원한다. 이 설계는 고해상도 특징(측위에 중요)과 깊은 맥락적 특징(분류에 중요)을 융합하여, 정밀한 세그멘테이션 마스크를 생성하는 데 매우 효과적이며, 이는 정확한 객체 측위에 필수적이다.9
DeepLab 계열: 이 모델들은 ‘아트러스 합성곱(atrous convolution)’ 또는 확장된 합성곱(dilated convolution)을 도입했다.18 아트러스 합성곱은 다운샘플링 없이 수용 영역(receptive field)을 확장하여 다중 스케일의 맥락 정보를 포착할 수 있게 해준다. 이는 공간 해상도를 유지하면서 더 넓은 영역의 정보를 활용할 수 있게 하여, 다양한 크기의 객체를 구별하는 데 중요한 역할을 한다.
SAM (Segment Anything Model): 세그멘테이션을 위한 파운데이션 모델(foundation model)이라는 새로운 패러다임을 제시했다.32 SAM은 프롬프트 기반 모델(promptable model)로, 사용자가 점, 상자, 텍스트 등의 프롬프트를 제공하면 어떤 객체든 분할할 수 있다. 이는 고정된, 사전 정의된 클래스에서 벗어나 로봇이 실시간으로 새로운 유형의 객체를 매핑하도록 지시받을 수 있는 ‘오픈 월드(open-world)’ 시맨틱 매핑의 가능성을 열었다.32

아키텍처	핵심 원리	측위에서의 주요 장점	한계점
FCN	완전 연결 계층을 합성곱 계층으로 대체하여 밀집 예측 수행	종단간(End-to-end) 세그멘테이션의 시초	풀링으로 인한 심각한 공간적 디테일 손실
U-Net	스킵 연결을 갖춘 인코더-디코더 구조	정밀한 경계 복원 능력이 뛰어나 정확한 객체 위치 파악에 유리	계산 비용이 상대적으로 높을 수 있음
DeepLab	아트러스(확장된) 합성곱 사용	해상도 손실 없이 넓은 수용 영역 확보, 다중 스케일 객체 처리에 강함	아트러스 합성곱의 계산 비용이 높을 수 있음
SAM	프롬프트 기반 파운데이션 모델	새로운 객체에 대한 제로샷(zero-shot) 일반화, 상호작용 및 오픈 월드 매핑 가능	명시적인 프롬프트가 필요하며, 완전 자율 매핑에는 별도의 가이드 시스템 필요

표 2: 시맨틱 세그멘테이션을 위한 주요 딥러닝 아키텍처

지도 표현 방식의 선택은 단순한 기술적 디테일이 아니라, 측위를 위해 어떤 정보를 본질적으로 간주할 것인가에 대한 철학적 선택을 반영한다.

3D 시맨틱 포인트 클라우드: 가장 직접적인 표현 방식으로, 3D 클라우드의 각 포인트가 기하학적 좌표와 시맨틱 레이블을 모두 갖는다.3 이는 모든 기하학적, 의미론적 디테일이 잠재적으로 유용하다고 가정하는 “상향식(bottom-up)” 데이터 중심 접근법이다. 그러나 대규모 환경에서는 메모리 집약적이고 처리 비용이 높을 수 있다.5
2.5D 지도: 주로 도시 환경에서 사용되는 단순화된 모델로, 건물의 파사드(facade)와 지면을 표현한다.26 완전한 3D 모델보다 훨씬 압축적이다.
확률적 조감도(BEV) 시맨틱 지도: 3D 시맨틱 정보를 2D 그리드 상에 위에서 내려다보는 시점으로 투영한 것이다.20 이는 주행 가능 공간과 차선 수준의 의미 정보를 직접적으로 표현하기 때문에 자율주행에 매우 적합하다. 확률적 모델링을 통해 센서 측정 및 세그멘테이션 예측에 내재된 불확실성을 관리할 수 있다.20 이는 자율주행이라는 특정 응용에 맞춰진 선택이다.
압축 및 추상화 지도: 일부 방법론은 전봇대, 차선, 지면 표시와 같은 안정적인 시맨틱 객체로만 구성된 고도로 추상화된 지도를 생성한다.22 이는 장기적인 측위에 특정 인공물만이 신뢰할 수 있다는 사전 지식을 가정하는 “하향식(top-down)” 지식 기반 접근법이다. 이러한 지도는 저장 및 측위 효율성을 극대화한다.

이러한 다양한 지도 표현 방식은 단일한, 보편적인 지도가 아닌 작업별 최적화된 지도 표현으로 나아가는 추세를 보여준다. 미래의 시스템은 전역 측위를 위한 희소 시맨틱 지도, 장애물 회피를 위한 밀집 기하학적 지도, 경로 계획을 위한 BEV 지도 등 여러 개의 지도 계층이나 표현 방식을 동시에 유지 및 활용할 가능성이 높다. 이러한 다중 표현 접근법은 시스템의 효율성과 강인함을 동시에 향상시킬 수 있다.

이 섹션에서는 두 가지 주요 측위 패러다임을 핵심 성능 지표를 기준으로 직접 비교한다. 이 분석은 해당 분야의 연구 동기와 기술적 트레이드오프를 이해하는 데 중심적인 역할을 한다.

시맨틱 측위의 가장 큰 장점은 외형 변화에 대한 강인함이다.6

강인함의 메커니즘:
- 시맨틱 특징은 ‘건물’, ‘도로’와 같은 고수준의 추상적 범주에 기반하기 때문에, 저수준 픽셀 패턴보다 본질적으로 더 안정적이다.6 건물의 외형은 낮과 밤에 따라 극적으로 변하지만, 그 시맨틱 레이블은 ‘건물’로 일정하게 유지된다.1
- 시맨틱 완성을 기반으로 한 생성 모델(generative model)을 학습함으로써, 시스템은 폐색(occlusion)이나 기하학적 변화(예: 여름의 무성한 나뭇잎 대 겨울의 앙상한 가지)에 불변하는 기술자를 학습할 수 있다.6
증거:
- NCLT와 같은 까다로운 데이터셋에 대한 연구들은 특징점 기반 방법들이 심각한 계절 및 조명 변화 하에서 실패하는 반면, 시맨틱 기반 접근법은 신뢰할 수 있는 측위 성능을 유지함을 보여준다.6
- 시맨틱 일관성은 자세 추정 과정에서 강력한 필터나 부드러운 제약 조건(soft constraint)으로 작용하여, 기하학적으로는 그럴듯하지만 의미론적으로는 일치하지 않는 매칭을 거부할 수 있다.1

이러한 변화는 ‘강인함’의 정의 자체를 진화시키고 있다. 초기에는 강인함이란 조명이나 시점 변화에 불변하는 특징점 기술자를 만드는 것을 의미했다. 즉, 특징점 자체에 초점이 맞춰져 있었다.4 그러나 시맨틱 방법론은 초점을 전환한다. 특징점 자체를 불변하게 만드는 대신, 불변하는 속성(시맨틱 클래스)을 사용하여 잠재적으로 변할 수 있는 특징들의 매칭을 검증하거나 유도한다.29 이는 ‘이미지의 ‘창문’ 픽셀이 지도의 ‘창문’ 포인트와 일치하는가’와 같이, 의미론적으로 타당할 때 매칭이 강인하다고 판단하는 더 강력한 개념으로 이어진다. 이러한 재정의는 장면의 타당성에 대해 추론하는 새로운 연구 방향을 열어준다. 예를 들어, 시스템은 ‘하늘’ 영역에서 검출된 특징점들의 가중치를 낮출 수 있는데, 이는 하늘이 안정적인 3D 객체가 아니라는 사전 지식을 활용하는 것이다. 이는 시맨틱스가 가능하게 하는 일종의 상식적 추론이다.

문제점: SIFT와 같은 지역 특징점 기술자를 저장하는 전통적인 구조 기반 지도는 환경의 이미지를 인식 가능한 수준으로 복원할 수 있어, 심각한 프라이버시 침해 위험을 내포한다.1
SegLoc의 해결책: SegLoc 프레임워크는 세그멘테이션 기반 표현에만 의존하는 측위 파이프라인을 제안한다.1
- 이 시스템은 자기 지도 학습(self-supervised learning) 방식으로 유한한 개수의 이산적인(반드시 인간이 이해하는 의미가 아닐 수 있는) 레이블 집합을 학습한다.
- 3D 지도는 오직 3D 좌표와 그에 해당하는 단일 정수 레이블만을 저장한다.
- 이는 비단사 함수(non-injective mapping)를 생성한다. 즉, 서로 다른 외형(예: 각기 다른 상점 정면)이 동일한 레이블에 매핑될 수 있다. 이러한 추상화는 지도에서 원본 시각 정보를 복원하는 것을 불가능하게 만든다.
트레이드오프: 이 방식은 강력한 프라이버시 보장을 제공하지만, 대가가 따른다. SegLoc이 최신 기술에 근접한 정확도를 달성했다고 보고되었지만, 일반적으로 프라이버시, 메모리, 자세 정확도 사이에는 트레이드오프 관계가 존재한다.1

시맨틱 측위와 특징점 기반 측위 사이에는 ‘정확도-프라이버시-비용(Accuracy-Privacy-Cost, APC) 삼중고’라는 근본적인 긴장 관계가 존재한다.

계산 비용:
- 시맨틱 방법: 세그멘테이션을 위한 딥러닝 모델은 계산 집약적이므로, 특히 모바일 로봇이나 차량과 같이 자원이 제한된 하드웨어에서의 실시간 응용에 병목이 될 수 있다.30 이는
  
  비용 측면에서의 희생이다.
- 특징점 기반 방법: ORB와 같은 고전적인 알고리즘은 고도로 최적화되어 있어 특징점 추출 및 매칭이 일반적으로 더 빠르다.4 이는
  
  비용(속도)을 최적화하지만, 열악한 환경에서의 정확도와 프라이버시(복원 가능한 특징점)를 희생한다.1
메모리 점유:
- 시맨틱 지도: 매우 압축적으로 만들 수 있다. 고차원의 특징점 기술자 대신 단일 정수 레이블을 저장함으로써 지도 크기를 수십 배 줄일 수 있다.1 이는 저장 공간이 제한된 장치에 배포할 때 상당한 이점이다.
- 특징점 기반 지도: 대규모 환경에 대해 수천 개의 고차원 기술자(예: 128바이트 SIFT)를 저장하면 막대한 크기의 지도 파일이 생성될 수 있다.5
절충점 탐색: 실시간 시맨틱 세그멘테이션 연구는 AGLNet, BiSeNetV2와 같이 정확도와 속도의 균형을 맞추는 경량 네트워크 아키텍처를 개발하여, 임베디드 시스템에서 30fps 이상을 목표로 한다.30 SegLoc과 같은 프라이버시 보존 방법은

프라이버시를 최적화하면서 좋은 정확도를 달성하지만, 이는 다른 요소에 대한 잠재적 영향을 암시한다.1

결론적으로, 현재 어떤 단일 방법도 이 삼중고를 완벽하게 해결하지 못한다. ‘최고의’ 접근법은 응용 분야에 따라 달라진다. 비실시간 증강현실을 위한 클라우드 서비스는 정확도를 우선시할 수 있고, 자율주행차는 실시간 성능(비용)이 필수적이며, 개인용 가정 로봇은 강력한 프라이버시 보장이 필요하다. 따라서 연구의 미래는 하나의 우월한 방법을 찾는 것이 아니라, 이 APC 공간 내의 다양한 지점에 맞춰 조정할 수 있는 기술 포트폴리오를 개발하는 데 있다.

기준	전통적 특징점 기반 (예: ORB-SLAM)	시맨틱 기반 (예: SegLoc, Semantic Fusion)
강인함 (조명/계절)	낮음	높음
강인함 (질감 부족 영역)	낮음	높음
프라이버시	낮음 (복원 가능한 특징점)	높음 (추상화된 비복원 레이블)
지도 크기 / 저장 공간	높음 (고차원 기술자 저장)	낮음 (정수 레이블 저장)
온라인 계산 비용	낮음 (최적화된 C++ 코드)	높음 (DNN 추론을 위한 GPU 필요)
훈련 데이터 의존성	낮음 (수작업 설계)	높음 (대규모 주석 데이터셋 필요)

표 3: 측위 방법론 비교 분석

이 섹션에서는 이론적 논의를 실제 사용 사례에 적용하여, 시맨틱 측위가 현대 자율 시스템을 위한 핵심 기술임을 입증한다.

HD 지도 자동 생성: 센티미터 수준의 고정밀(HD) 지도를 수동으로 제작하고 주석을 다는 작업은 극도로 노동 집약적이다.20 시맨틱 세그멘테이션은 센서 데이터로부터 차선, 보도, 횡단보도, 교통 표지판과 같은 도로 요소를 직접 식별하여 이 과정을 자동화하는 핵심 기술이다.3
강인한 측위: 자율주행차는 극도의 정밀도와 신뢰성으로 자신의 위치를 파악해야 한다. 시맨틱 지도는 차선, 전봇대, 지면 표시와 같이 날씨나 조명에 덜 영향을 받는 안정적인 장기적 랜드마크를 제공하여, 까다로운 도시 환경에서도 강인한 측위를 가능하게 한다.22
계획을 위한 장면 이해: 시맨틱 세그멘테이션은 차량이 단순히 기하학적 구조뿐만 아니라 환경을 ‘이해’하게 해준다. ‘도로’(주행 가능), ‘보도’(조건부 주행 가능), ‘건물’(장애물)을 구별할 수 있으며, 이는 안전한 경로 계획을 위한 필수적인 입력 정보이다.3

시맨틱 측위의 주된 가치는 단순히 자세(pose)를 얻는 것이 아니라, 그 과정에서 부수적으로 얻어지는 ‘맥락(context)’에 있다. 전통적인 측위기는 6자유도 자세 값(x, y, z, roll, pitch, yaw)을 출력한다. 반면, 시맨틱 측위기는 그 자세를 찾는 과정에서 주변 장면에 대한 이해를 본질적으로 수행한다. 즉, 자신이 ‘도로’ 위에 있고, ‘건물’ 옆을 지나고 있으며, ‘횡단보도’에 접근하고 있다는 것을 안다.20 이 맥락 정보는 측위 과정의 부산물로서 즉시 사용 가능하다. 이는 시스템 아키텍처에 근본적인 변화를 가져온다. 측위, 인식, 계획을 위한 별도의 모듈 대신, 측위와 장면 이해가 동시에 수행되는 긴밀하게 결합된 통합 모델로 나아가는 추세가 나타나고 있다. 이제 ‘측위기’의 출력은 단순한 자세가 아니라, 의사결정 모듈에 직접적으로 입력되는 풍부하고 구조화된 주변 환경에 대한 이해가 된다.3

시맨틱 매핑: 인간 환경에서 작동하는 로봇은 기하학적 지도 이상의 것을 필요로 한다. 즉, “어디에 무엇이 있는지” 알려주는 시맨틱 지도가 필요하다.2 이는 “주방 식탁에서 컵을 가져와”와 같은 작업 수준의 명령을 수행할 수 있게 한다.14
험지 주행: 비포장도로 주행 시, 시맨틱스는 ‘길’, ‘초목’, ‘장애물’을 구별하는 데 도움을 주어 전지형 차량이 좁고 복잡한 경로를 항해할 수 있게 한다.2 수중 로보틱스에서는 파이프나 밸브와 같은 기반 시설을 식별하고 매핑하여 검사 및 조작 작업을 지원한다.14
인간-로봇 상호작용: 시맨틱 지도는 인간과 로봇 사이의 공통 언어를 제공한다. 로봇은 단순히 좌표를 보고하는 대신, “중앙 현관 근처 복도에 있습니다”와 같이 의미 있는 맥락과 함께 자신의 상태를 보고할 수 있다.13
지속적인 증강현실(Persistent AR): AR 콘텐츠가 장기간에 걸쳐 현실 세계에 정확하게 고정되려면, 장치는 환경 변화에도 불구하고 강인하게 자신의 위치를 다시 파악할 수 있어야 한다. 시맨틱 측위의 외형 변화에 대한 불변성은 이러한 “생애주기(life-long)” 측위 능력에 매우 중요하다.6
장기 로봇 운영: 수개월 또는 수년 동안 건물에 배치된 서비스 로봇은 계절 변화, 가구 재배치, 다양한 조명 조건에 대처해야 한다. 시맨틱 SLAM은 로봇이 지도를 지속적으로 업데이트하고 이러한 장기간에 걸쳐 정확한 측위를 유지할 수 있게 한다.45

이러한 응용 분야들은 필요한 시맨틱 ‘어휘(vocabulary)’가 각기 다르다는 점을 명확히 보여준다. 자율주행차는 ‘차선’, ‘신호등’, ‘보행자’를 이해해야 하고 22, 실내 서비스 로봇은 ‘문’, ‘의자’, ‘테이블’을 알아야 하며 14, 숲을 매핑하는 드론은 ‘지면’, ‘나무’, ‘안전 착륙 구역’을 구분해야 한다.2 이 어휘들은 대부분 서로 겹치지 않는다. 자율주행용으로 훈련된 모델(예: Cityscapes 데이터셋 30)은 실내 환경에서 성능이 저하될 것이다. 이는 시맨틱 모델의 ‘일반성’이 중요한 실질적 과제임을 시사한다. SAM과 같은 파운데이션 모델이 오픈-어휘 세그멘테이션의 길을 열어주고는 있지만 32, 현재 대부분의 고성능 시스템은 특정 도메인에 미세 조정된 모델에 의존한다. 이는 새로운 도메인에 시맨틱 측위를 배포하기 위해서는 상당한 데이터 수집 및 주석 작업이 필요함을 의미하며, 이는 다음 섹션에서 논의할 ‘데이터 병목 현상’과 직접적으로 연결된다.

이 섹션에서는 시맨틱 측위의 광범위하고 안정적인 배포를 가로막는 장애물들을 비판적으로 검토한다. 환경적 문제, 기술적 한계, 그리고 실질적인 병목 현상에 초점을 맞춘다.

과제: 지각적 모호성(Perceptual aliasing)은 물리적으로 다른 위치가 시각적으로 유사하게 보일 때 발생한다. 이는 긴 사무실 복도, 주차장, 창고와 같이 반복적인 구조를 가진 환경에서 시각적 측위의 고전적인 실패 원인이다.10
시맨틱스가 실패하는 이유: 시맨틱스는 도움이 되지만, 그 자체로 반복적일 수 있다. 복도의 모든 문과 벽 부분이 의미론적으로 동일하게(‘문’, ‘벽’) 분류된다면, 시맨틱 정보는 위치를 명확히 구분하는 데 도움이 되지 않는다.10 시스템은 쉽게 길을 잃거나 지도상에서 잘못된 루프 폐쇄(loop closure)를 수행할 수 있다.33
완화 전략:
- 더 세분화된 시맨틱스: 단순한 클래스 레이블을 넘어, 인스턴스 수준의 세부 정보나 문 번호와 같은 텍스트를 인식하는 것은 모호성을 해결하는 데 필요한 고유 정보를 제공할 수 있다.33
- 다중 센서 융합: 미묘한 기하학적 차이를 포착하는 LiDAR나 주변 자기장 센서와 같은 비시각적 센서를 통합하면, 시각적 모호성을 해결하기 위한 보완적인 정보 소스를 제공할 수 있다.10
- 위상학적 및 확률적 방법: 로봇의 위치에 대한 여러 가설을 유지하는 파티클 필터와 같은 확률적 필터를 사용하면, 반복적인 영역에서의 불일치로부터 복구하는 데 도움이 될 수 있다.10
과제: 대부분의 SLAM 및 측위 알고리즘은 “정적 세계 가정(static world assumption)”에 기반한다.9 움직이는 사람이나 자동차와 같은 동적 객체는 이 가정을 위반하며, 자세 추정과 지도를 오염시키는 잘못된 특징점 매칭을 유발한다.9 이는 실제 환경에서 측위 실패의 주요 원인이다.45
시맨틱 해결책: 시맨틱 세그멘테이션은 동적 객체를 식별하고 처리하는 강력한 도구를 제공한다.
- 탐지 및 제거: 가장 일반적인 전략은 인스턴스 세그멘테이션 네트워크를 실행하여 ‘사람’, ‘자동차’와 같이 잠재적으로 동적인 클래스에 속하는 객체를 식별하고, 측위 과정에서 해당 특징점들을 단순히 제거하는 것이다.21
- 정적 배경 복원: MISD-SLAM과 같은 고급 시스템은 동적 객체를 제거하는 데 그치지 않고, 그 뒤의 정적 배경을 복원(inpainting)하거나 재구성하여 더 깨끗한 지도와 강인한 추적을 가능하게 한다.21
- 불확실성 처리: LiSA와 같은 시스템은 동적 객체 위의 점들을 완전히 제거하는 대신 그 영향을 약화시키는 방식으로 시맨틱 인식을 사용하여, 더 부드럽고 확률적인 접근법을 제공한다.49

반복적 환경과 동적 환경이라는 두 가지 문제는 정보의 ‘신뢰성’이라는 동일한 문제의 양면과 같다. 반복적인 환경에서는 정보가 신뢰할 수는 있지만 고유하지 않아(지각적 모호성) 구별 정보가 부족하다.10 반면, 동적 환경에서는 움직이는 객체로부터의 정보가 고유하기는 하지만 신뢰할 수 없어(정적 세계 가정 위반) 오해의 소지가 있는 정보가 과잉된다.21 두 경우 모두 측위 시스템이 센서 입력을 액면 그대로 신뢰할 수 없다는 동일한 결과를 초래한다. 이는 진정으로 강인한 시스템이 메타 수준의 추론, 즉 ‘정보 신뢰성 필터’를 필요로 함을 시사한다. 이 필터는 시맨틱스, 모션 모델, 기하학적 제약을 사용하여 단순히 측위하는 것이 아니라, 먼저 입력 데이터의 품질과 신뢰성을 평가해야 한다. 미래의 시스템은 “나는 어디에 있는가?”라고 묻는 대신, “이 장면의 어떤 정보를 신뢰하여 내 위치를 파악할 수 있는가?”라고 물을 것이다.

주석의 비용: 시맨틱 세그멘테이션을 위한 딥러닝 모델을 훈련시키려면 방대한 양의 픽셀 단위로 레이블이 지정된 데이터가 필요하다.31 이 주석 과정은 극도로 시간 소모적이고 비용이 많이 들며 노동 집약적이다.16
준지도 및 자기지도 학습: 이를 완화하기 위해, 연구자들은 소량의 레이블된 데이터와 대량의 레이블 없는 데이터로부터 학습할 수 있는 기술을 탐구하고 있다. 여기에는 모델이 레이블 없는 데이터에 대해 내린 확신도 높은 예측을 새로운 훈련 레이블로 사용하는 의사 레이블링(pseudo-labeling) 50과, 여러 시점 간의 기하학적 일관성으로부터 표현을 학습하는 SegLoc과 같은 자기지도 학습 방법이 포함된다.1
일반화 문제: 한 도시나 환경에서 훈련된 모델이 다른 건축 양식, 날씨, 조명 조건을 가진 다른 곳에서는 잘 일반화되지 않을 수 있다. 이러한 일반화의 부족은 진정으로 확장 가능한 측위 솔루션을 만드는 데 주요 장애물이다.36

데이터 주석 병목 현상은 시맨틱 측위의 광범위한 채택에 있어 주요 경제적 및 물류적 장벽이다. 세그멘테이션을 위한 핵심 기술(DNN)은 성숙했고 16, 측위에서 시맨틱스를 사용하는 알고리즘도 잘 정립되어 있다.1 그러나 새로운 도메인(예: 도시 주행에서 농업 로보틱스로)에 시스템을 배포하려면 새로운, 도메인 특화적인, 픽셀 단위로 주석이 달린 데이터셋이 필요하다.50 이 데이터 수집 및 주석 주기는 확장성을 저해하는 막대하고 반복적인 비용을 발생시킨다.50 따라서 가장 영향력 있는 미래 연구는 새로운 네트워크 아키텍처가 아니라, 지도 학습 데이터에 대한 의존성을 끊는 방법에 있을 수 있다. 이것이 바로 자기지도 학습 1, 준지도 학습 50, 그리고 제로샷 파운데이션 모델 32의 부상이 중요한 이유이다. 이들은 기술 발전을 수작업 노동에서 분리하여 시맨틱 측위를 전 세계적으로 경제적으로 실행 가능하게 만드는 경로를 제시한다.

과제	설명	문헌에서 제안된 해결/완화 전략 (출처)
지각적 모호성	서로 다른 위치가 시각적/의미론적으로 동일하게 보임	더 세분화된 시맨틱스 (예: 텍스트 인식 33), 다중 센서 융합 (LiDAR, 자기장 10), 확률적 다중 가설 추적 46
동적 객체	움직이는 객체가 정적 세계 가정을 위반하여 자세와 지도를 오염시킴	시맨틱/인스턴스 세그멘테이션을 통한 동적 특징 탐지 및 제거 21, 다중 시점 기하학을 이용한 모션 기반 필터링 9, 불확실한 영역 가중치 감소 49
계산 비용	자원 제한 하드웨어에서 실시간 세그멘테이션이 어려움	경량 네트워크 아키텍처 (예: BiSeNetV2 44), 지식 증류 49, 다중 분기 아키텍처 30
데이터 주석	대규모의 픽셀 단위 데이터셋 제작이 비싸고 시간이 많이 소요됨	준지도 학습 (의사 레이블링 50), 자기지도 학습 (기하학적 일관성 1), 추적을 통한 자동 레이블링 26, 파운데이션 모델 32

표 4: 주요 과제와 완화 전략 요약

이 마지막 섹션에서는 최신 연구 동향을 종합하여 시맨틱 측위 분야가 나아갈 방향을 조망한다.

근거: 완벽한 단일 센서는 없다. 비전은 풍부한 시맨틱 데이터를 제공하지만 빛에 민감하고, LiDAR는 정확한 깊이와 기하학 정보를 제공하지만 희소하고 특정 재질에 취약하며, IMU는 고주파의 모션 추정치를 제공하지만 시간이 지남에 따라 드리프트가 발생한다.47
동향: 최근 연구는 한 센서의 출력을 다른 센서의 입력으로 단순히 사용하는 느슨하게 결합된(loosely-coupled) 시스템에서, 모든 센서의 원시 측정값을 단일 프레임워크(예: 팩터 그래프) 내에서 공동으로 최적화하는 긴밀하게 결합된(tightly-coupled) 융합으로 이동하고 있다. 이는 더 높은 정확도와 강인함으로 이어진다.22
융합에서 시맨틱스의 역할: 시맨틱스는 강력한 교차 모달(cross-modal) 연결고리 역할을 한다. 예를 들어, 이미지에서 감지된 ‘전봇대’는 LiDAR 스캔의 수직 포인트 클러스터와 연관되어 강력한 다중 모달 랜드마크를 생성할 수 있다.22 LiSA 논문은 시맨틱 인식이 동적이거나 반복적인 구조를 무시하도록 학습함으로써 LiDAR 단독 측위를 어떻게 개선할 수 있는지 보여준다.49
SAM과 MLLM의 영향: SAM 32과 다중 모달 대형 언어 모델(MLLM)과 같은 대규모 사전 훈련 모델들이 지형을 바꾸고 있다. 이들은 제로샷 또는 퓨샷(few-shot) 세그멘테이션 능력을 제공하여, 도메인 특화적인 훈련 데이터의 필요성을 극적으로 줄인다.32
오픈 월드 SLAM을 향하여: 이는 로봇이 더 이상 사전 정의된 폐쇄된 클래스 집합에 국한되지 않는 “오픈 월드” 또는 “오픈 어휘” 시맨틱 매핑을 가능하게 한다. 로봇은 자연어 설명을 기반으로 새로운 객체를 식별하고 매핑할 수 있다.33 이는 진정으로 적응력 있고 지능적인 에이전트를 구축하는 데 중요한 단계이다.34
효율성의 필요성: 시맨틱 측위가 드론, 자동차, 모바일 로봇과 같은 실제 장치에서 실용적이려면, 모델이 계산적으로 효율적이고 메모리 점유가 낮아야 한다.30
핵심 기술:
- 효율적인 아키텍처: 채널 분할 및 셔플링(AGLNet 41)이나 다중 분기 설계(BiSeNet 44)와 같은 기술을 사용하여 속도에 특화된 네트워크를 설계한다.
- 지식 증류(Knowledge Distillation): 크고 정확한 “교사” 모델을 훈련시킨 다음, 그 지식을 훨씬 작고 빠른 “학생” 모델에 “증류”하는 방식이다. LiSA는 이 기술을 사용하여 추론 시간 오버헤드 없이 SCR 네트워크에 시맨틱 인식을 전달한다.49
- 양자화 및 가지치기: 네트워크 가중치의 정밀도를 줄이고 중복 연결을 제거하여 모델 크기를 줄이고 계산 속도를 높인다.
종합: 시맨틱 측위는 특히 까다로운 장기 시나리오에서 전통적인 방법에 비해 상당한 강인함의 이점을 제공하는 강력한 패러다임임이 입증되었다. 그러나 그 실제적인 배포는 APC 삼중고(정확도, 프라이버시, 비용)와 동적 환경 및 지각적 모호성과 같은 과제들에 의해 조절된다.
미래 전망: 이 분야의 미래는 세 가지 핵심 방향에 놓여 있다:
1. 지능적 융합: 다양한 센서로부터의 정보를 융합하기 위해 시맨틱스를 공통 언어로 사용하는 긴밀하게 결합된 다중 모달 시스템.
2. 데이터 효율적 학습: 주석 병목 현상을 해결하기 위해 완전 지도 학습에서 벗어나 자기지도, 준지도, 그리고 파운데이션 모델 기반 접근법으로의 전환.
3. 적응형 시스템: 정보의 신뢰성에 대해 추론하고 현재 환경 맥락에 따라 전략(예: 신뢰할 센서, 사용할 지도 표현)을 동적으로 조정할 수 있는 시스템의 개발.

궁극적인 목표는 단순히 시맨틱 지도가 아니라, 공간-시간적이며 의미론적인 “4D 세계 모델”을 구축하는 것이다. SLAM은 3D 기하학적 지도를 제공하고 9, 시맨틱 SLAM은 여기에 의미론적 계층을 추가한다.13 동적 환경에 대한 연구들은 여기에 네 번째 차원, 즉 ‘시간’을 추가하려는 시도이다. 이는 단순히 동적 객체를 필터링하는 것을 넘어, 그들의 움직임을 이해하고 예측하는 것을 포함한다.21 Khronos 논문은 단기적 동역학과 장기적 변화에 대해 추론하며, 환경과

시간에 따른 그 진화에 대한 계량-시맨틱 이해를 구축하는 것을 명시적으로 다룬다.45 진정한 최전선은 기하학(어디에 있는지), 시맨틱스(무엇인지), 그리고 동역학(어떻게 움직이고 변하는지)을 나타내는 통합 모델이다. 이러한 4D 세계 모델은 에이전트가 단순히 자신의 위치를 파악하는 것을 넘어 과거에 대해 추론하고(“어제 저 차가 여기에 주차되어 있었지”) 미래를 예측하며(“저 보행자는 길을 건널 것 같아”), 자율 능력의 심오한 도약을 가능하게 할 것이다.

또한, 컴퓨터 비전, 로보틱스, 자연어 처리 분야 간의 융합이 시맨틱 이해의 필요성에 의해 가속화되고 있다. 측위는 전통적으로 기하학에 초점을 맞춘 로보틱스/CV 문제였으나 9, 시맨틱 세그멘테이션이 주류 CV의 딥러닝을 도입했고 16, 이제는 SAM(CV)과 MLLM(NLP/CV)과 같은 파운데이션 모델이 오픈 어휘 이해를 제공하기 위해 통합되고 있다.32 작업은 “빨간 머그잔을 찾아라”와 같이 점점 더 언어 기반이 되고 있으며 34, 해결책은 세상을 해석하기 위해 언어 기반 모델을 사용하고 있다. 미래의 “시맨틱 측위” 전문가는 이 세 분야 모두에 능숙해야 할 것이다. 문제는 더 이상 기하학적 정합에 국한되지 않으며, 다중 모달의 공간-시간적 세계 이해 속에서 자연어 설명을 기반으로 할 수 있는 시스템을 구축하는 것으로 확장되고 있다. 이 학제 간 융합이야말로 차세대 자율 시스템을 형성하는 가장 중요한 추세이다.

SegLoc: Learning Segmentation-Based … - CVF Open Access, accessed July 5, 2025, https://openaccess.thecvf.com/content/CVPR2023/papers/Pietrantoni_SegLoc_Learning_Segmentation-Based_Representations_for_Privacy-Preserving_Visual_Localization_CVPR_2023_paper.pdf
Semantic Mapping for Autonomous Navigation and Exploration - Carnegie Mellon University’s Robotics Institute, accessed July 5, 2025, https://www.ri.cmu.edu/publications/semantic-mapping-for-autonomous-navigation-and-exploration/
Simultaneous Localization and Mapping (SLAM) for Autonomous Driving: Concept and Analysis - MDPI, accessed July 5, 2025, https://www.mdpi.com/2072-4292/15/4/1156
Deep Learning vs. Traditional Computer Vision - arXiv, accessed July 5, 2025, https://arxiv.org/pdf/1910.13796
Methods for visual localization - Naver Labs Europe, accessed July 5, 2025, https://europe.naverlabs.com/blog/methods-for-visual-localization/
Semantic Visual Localization - Andreas Geiger, accessed July 5, 2025, https://www.cvlibs.net/publications/Schoenberger2018CVPR.pdf
Towards Robust Visual Localization in Challenging Conditions - Chalmers Research, accessed July 5, 2025, https://research.chalmers.se/publication/521033/file/521033_Fulltext.pdf
(PDF) Semantic Visual Localization - ResearchGate, accessed July 5, 2025, https://www.researchgate.net/publication/321873727_Semantic_Visual_Localization
This shows the principle of semantic segmentation. (a) Background… - ResearchGate, accessed July 5, 2025, https://www.researchgate.net/figure/This-shows-the-principle-of-semantic-segmentation-a-Background-represents-the-static_fig4_377245952
(PDF) Infrastructure-Free Hierarchical Mobile Robot Global Localization in Repetitive Environments - ResearchGate, accessed July 5, 2025, https://www.researchgate.net/publication/353392106_Infrastructure-Free_Hierarchical_Mobile_Robot_Global_Localization_in_Repetitive_Environments
What Is Semantic Segmentation? How It Works - Roboflow Blog, accessed July 5, 2025, https://blog.roboflow.com/what-is-semantic-segmentation/
A Comparative Review on Enhancing Visual Simultaneous Localization and Mapping with Deep Semantic Segmentation - MDPI, accessed July 5, 2025, https://www.mdpi.com/1424-8220/24/11/3388
An Overview on Visual SLAM: From Tradition to Semantic - MDPI, accessed July 5, 2025, https://www.mdpi.com/2072-4292/14/13/3010
Semantic Mapping for Autonomous Subsea Intervention - PMC, accessed July 5, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC8538227/
Path Planning Incorporating Semantic Information for Autonomous Robot Navigation - SciTePress, accessed July 5, 2025, https://www.scitepress.org/PublishedPapers/2022/111343/111343.pdf
A Survey on Deep Learning-based Architectures for Semantic Segmentation on 2D Images, accessed July 5, 2025, https://www.tandfonline.com/doi/full/10.1080/08839514.2022.2032924
Semantic Segmentation: A Practical Guide - Lightly AI, accessed July 5, 2025, https://www.lightly.ai/blog/semantic-segmentation-a-practical-guide

Semantic segmentation: Complete guide [Updated 2024]

SuperAnnotate, accessed July 5, 2025, https://www.superannotate.com/blog/guide-to-semantic-segmentation

Image Segmentation: Architectures, Losses, Datasets, and Frameworks - neptune.ai, accessed July 5, 2025, https://neptune.ai/blog/image-segmentation
Probabilistic Semantic Mapping for Autonomous Driving in Urban …, accessed July 5, 2025, https://www.mdpi.com/1424-8220/23/14/6504
MISD‐SLAM: Multimodal Semantic SLAM for Dynamic Environments …, accessed July 5, 2025, https://onlinelibrary.wiley.com/doi/10.1155/2022/7600669
Monocular Localization with Semantics Map for Autonomous Vehicles - arXiv, accessed July 5, 2025, https://arxiv.org/html/2406.03835v1
Monocular Localization with Semantics Map for Autonomous Vehicles - arXiv, accessed July 5, 2025, https://arxiv.org/pdf/2406.03835?
AUTONOMOUS VEHICLES LOCALISATION BASED ON SEMANTIC …, accessed July 5, 2025, https://isprs-archives.copernicus.org/articles/XLVIII-1-W2-2023/901/2023/isprs-archives-XLVIII-1-W2-2023-901-2023.pdf
Visual Localization Using Semantic Segmentation and Depth Prediction - arXiv, accessed July 5, 2025, https://arxiv.org/abs/2005.11922
Semantic Segmentation for 3D Localization in … - Vincent Lepetit, accessed July 5, 2025, https://vincentlepetit.github.io/files/papers/comp_armagan_jurse17.pdf
[2210.04543] Sparse Semantic Map-Based Monocular Localization in Traffic Scenes Using Learned 2D-3D Point-Line Correspondences - arXiv, accessed July 5, 2025, https://arxiv.org/abs/2210.04543
Semantic Visual Localization - CVF Open Access, accessed July 5, 2025, https://openaccess.thecvf.com/content_cvpr_2018/papers/Schonberger_Semantic_Visual_Localization_CVPR_2018_paper.pdf
[2005.10766] Dense Semantic 3D Map Based Long-Term Visual Localization with Hybrid Features - arXiv, accessed July 5, 2025, https://arxiv.org/abs/2005.10766
On Efficient Real-Time Semantic Segmentation: A Survey - arXiv, accessed July 5, 2025, https://arxiv.org/pdf/2206.08605
Semantic Segmentation in Computer Vision - Pareto.AI, accessed July 5, 2025, https://pareto.ai/blog/semantic-segmentation
A Survey on Segment Anything Model (SAM): Vision Foundation Model Meets Prompt Engineering - arXiv, accessed July 5, 2025, https://arxiv.org/html/2306.06211v4
Resolving Loop Closure Confusion in Repetitive Environments for Visual SLAM through AI Foundation Models Assistance - Infovaya, accessed July 5, 2025, https://events.infovaya.com/uploads/documents/pdfviewer/4d/f7/131260-1993.pdf
Semantic Mapping in Indoor Embodied AI – A Comprehensive Survey and Future Directions, accessed July 5, 2025, https://arxiv.org/html/2501.05750v1
Compact 3D Map-Based Monocular Localization Using Semantic Edge Alignment - arXiv, accessed July 5, 2025, https://arxiv.org/abs/2103.14826
SVS-VPR: A Semantic Visual and Spatial Information-Based Hierarchical Visual Place Recognition for Autonomous Navigation in Challenging Environmental Conditions - MDPI, accessed July 5, 2025, https://www.mdpi.com/1424-8220/24/3/906
General and feature-based semantic representations in the semantic network - PMC, accessed July 5, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC7265368/
Privacy in Visual Localization - Chalmers Research, accessed July 5, 2025, https://research.chalmers.se/publication/545640/file/545640_Fulltext.pdf
SegLoc: Learning Segmentation-Based Representations for Privacy-Preserving Visual Localization - CVPR 2023 Open Access Repository, accessed July 5, 2025, https://openaccess.thecvf.com/content/CVPR2023/html/Pietrantoni_SegLoc_Learning_Segmentation-Based_Representations_for_Privacy-Preserving_Visual_Localization_CVPR_2023_paper.html
Revision History for SegLoc: Learning Segmentation-Based… - OpenReview, accessed July 5, 2025, https://openreview.net/revisions?id=8VQy61noaC
PyTorch implementation of over 30 realtime semantic segmentations models, e.g. BiSeNetv1, BiSeNetv2, CGNet, ContextNet, DABNet, DDRNet, EDANet, ENet, ERFNet, ESPNet, ESPNetv2, FastSCNN, ICNet, LEDNet, LinkNet, PP-LiteSeg, SegNet, ShelfNet, STDC, SwiftNet, and support knowledge distillation, distributed training, Optuna etc. - GitHub, accessed July 5, 2025, https://github.com/zh320/realtime-semantic-segmentation-pytorch
Deep Semantic Segmentation for Multi-Source Localization Using Angle of Arrival Measurements - arXiv, accessed July 5, 2025, https://arxiv.org/html/2506.10107v1
Bridging the Gap Between Computational Efficiency and Segmentation Fidelity in Object-Based Image Analysis - MDPI, accessed July 5, 2025, https://www.mdpi.com/2076-2615/14/24/3626
[Literature Review] Monocular Localization with Semantics Map for Autonomous Vehicles, accessed July 5, 2025, https://www.themoonlight.io/en/review/monocular-localization-with-semantics-map-for-autonomous-vehicles
Khronos: A Unified Approach for Spatio-Temporal Metric-Semantic SLAM in Dynamic Environments - Robotics, accessed July 5, 2025, https://www.roboticsproceedings.org/rss20/p081.pdf
Semantic Localization System for Robots at Large Indoor Environments Based on Environmental Stimuli - MDPI, accessed July 5, 2025, https://www.mdpi.com/1424-8220/20/7/2116
arxiv.org, accessed July 5, 2025, https://arxiv.org/html/2410.12169v1
arxiv.org, accessed July 5, 2025, https://arxiv.org/html/2411.06752v1
CVPR Poster LiSA: LiDAR Localization with Semantic Awareness, accessed July 5, 2025, https://cvpr.thecvf.com/virtual/2024/poster/30427
Semi-Supervised Semantic Segmentation Based on Pseudo-Labels: A Survey - arXiv, accessed July 5, 2025, https://arxiv.org/html/2403.01909v1
Where do you apply the concept of ‘semantic segmentation’? - Quora, accessed July 5, 2025, https://www.quora.com/Where-do-you-apply-the-concept-of-semantic-segmentation
A Review of Research on SLAM Technology Based on the Fusion of …, accessed July 5, 2025, https://www.mdpi.com/1424-8220/25/5/1447