Booil Jung

강인한 시각적 측위를 위한 시맨틱 세그멘테이션

시각적 측위(Visual Localization)는 알려진 환경 내에서 카메라의 정밀한 6자유도(6-DoF, Degrees of Freedom) 자세-위치와 방향-를 추정하는 기술이다.1 이 기술은 자율 로봇, 자율주행 자동차, 증강현실(AR)과 같은 현대 시스템의 핵심 구성 요소로 자리 잡았다.1

전통적인 시각적 측위 방법론, 흔히 구조 기반 측위(Structure-based Localization)라 불리는 접근법은 질의 이미지(query image)와 사전에 구축된 3D 지도 사이에서 저수준의 수작업 특징점(handcrafted local features)을 매칭하는 방식에 의존한다. SIFT(Scale-Invariant Feature Transform), SURF(Speeded Up Robust Features), ORB(Oriented FAST and Rotated BRIEF)와 같은 특징점들은 이미지 내 픽셀 강도 패턴에 기반하여 추출된다.4 그러나 이러한 저수준 특징점들은 조명, 날씨, 계절의 변화와 같은 외형적 변화에 매우 취약하다는 근본적인 한계를 지닌다.6 예를 들어, 낮과 밤, 여름과 겨울 사이의 극적인 외형 변화는 특징점 검출과 기술(description)을 불안정하게 만들어 장기적인 자율 운영 환경에서의 신뢰성을 심각하게 저해한다. 또한, 복도나 창고와 같이 시각적으로 반복되거나 질감이 부족한 환경에서는 구별 가능한 특징점을 충분히 추출하기 어려워 성능이 급격히 저하된다.9

이러한 한계를 극복하기 위한 대안으로 시맨틱 측위(Semantic Localization)가 부상했다. 시맨틱 측위는 장면에 대한 고수준의 이해를 활용하는 접근법으로, 이미지 내 픽셀이나 영역에 ‘도로’, ‘건물’, ‘하늘’과 같은 의미론적 레이블(class label)을 할당한다.11 이 접근법의 핵심적인 강점은 강인함(robustness)에 있다. 조명이나 계절의 변화로 인해 건물의 픽셀 수준 외형이 극적으로 변하더라도, ‘건물’이라는 의미론적 본질은 변하지 않기 때문이다.1 데이터 연관(data association)의 단위를 픽셀 수준에서 객체 수준으로 끌어올림으로써, 시스템은 환경에 대해 인간과 유사한 수준의 이해를 달성할 수 있게 되며, 이는 단순한 위치 추정을 넘어 더 복잡한 작업을 수행하고 상호작용할 수 있는 기반을 마련한다.13

이러한 패러다임의 전환은 단순히 측위의 정확도를 높이는 것을 넘어, ‘지도’의 본질에 대한 근본적인 변화를 의미한다. 전통적인 기하학적 지도, 예를 들어 SIFT 특징점 클라우드는 “세상이 기하학적 관점에서 어떻게 보이는가?”라는 질문에 답한다.5 반면, 시맨틱 지도는 “세상은 무엇으로 구성되어 있는가?”라는 질문에 답한다.12 이 전환은 시스템의 이해 수준을 순수한 지각적(perceptual) 단계에서 인지적(cognitive) 단계로 격상시킨다. 이러한 인지적 지도는 로봇이 “주방으로 가라” 또는 “잔디밭을 피하라”와 같은 의미론적 지시에 따라 작업을 수행할 수 있게 하는 핵심 동력이다.2 순수한 기하학적 지도만으로는 이러한 고수준의 자율성을 달성하는 것이 불가능하다. 따라서 시맨틱 측위는 단순히 더 강인하게 자세를 찾는 방법이 아니라, 고수준 자율성을 실현하기 위한 필수적인 기술이라고 할 수 있다.

시맨틱 측위를 이해하기 위해서는 먼저 그 기반이 되는 다양한 이미지 세그멘테이션(Image Segmentation) 기술을 명확히 구분해야 한다.

이 세 가지 기술은 모두 가치 있는 정보를 제공하지만, 시맨틱 측위의 기초를 이루는 것은 주로 시맨틱 세그멘테이션이다. 도로, 건물, 보도와 같이 크고 정적인 구조물에 대한 안정적인 클래스 수준의 정보를 제공하는 능력은 강인한 기준 좌표계를 설정하는 데 특히 중요하기 때문이다.12

측위 작업에서 이 세 가지 세그멘테이션 패러다임 중 어떤 것을 선택하느냐는 의미론적 풍부함과 계산적 집중도 사이의 근본적인 트레이드오프를 드러낸다. 시맨틱 세그멘테이션은 ‘도로’나 ‘건물’과 같은 넓고 안정적인 맥락 정보를 제공하여, 거칠지만 강인한 측위에 매우 효과적이다.20 반면, 인스턴스 세그멘테이션은 ‘car_1’, ‘pedestrian_5’와 같은 동적 객체를 추적하고 필터링하는 데 필수적이며, 이는 측위에서 가장 큰 도전 과제 중 하나이다.21 파놉틱 세그멘테이션은 가장 완벽한 장면 이해를 제공하지만, 그만큼 가장 높은 계산 비용과 복잡성을 수반한다.17 이러한 이유로, 최신 시스템들은 종종 하이브리드 접근법을 채택한다. 즉, 정적인 배경 요소(지도)에는 시맨틱 세그멘테이션을, 동적인 전경 요소(장애물)에는 인스턴스 세그멘테이션을 사용하는 것이다. 이는 단일 세그멘테이션 패러다임만으로는 충분하지 않으며, 미래의 시스템은 작업의 성격에 따라 계산 자원을 동적으로 할당하는 방향으로 발전할 것임을 시사한다. 일반적인 주행에는 거친 시맨틱 이해를 사용하고, 특정 객체와 상호작용하거나 복잡한 교통 상황을 헤쳐나갈 때는 세밀한 인스턴스 수준의 분석을 수행하는 방식이 될 것이다.

특징 시맨틱 세그멘테이션 인스턴스 세그멘테이션 파놉틱 세그멘테이션
핵심 목표 모든 픽셀 분류 모든 객체 인스턴스 탐지 및 분할 분류와 인스턴스 탐지의 통합
출력 픽셀 단위 클래스 맵 인스턴스 단위 마스크와 클래스 레이블 모든 픽셀에 대한 클래스 및 인스턴스 ID를 포함한 통합 맵
다중 인스턴스 처리 동일 클래스의 모든 인스턴스 병합 각 인스턴스를 개별적으로 처리 ‘Things’는 분리, ‘Stuff’는 병합
주요 측위 활용 사례 대규모 정적 구조물(도로, 건물) 매핑 동적 객체(자동차, 보행자) 추적 및 필터링 복잡한 상호작용을 위한 포괄적인 장면 이해

표 1: 이미지 세그멘테이션 패러다임 비교

이 섹션에서는 시맨틱 측위 시스템의 기술적 구성 요소를 심층적으로 분석한다. 고수준의 파이프라인 개요에서 시작하여, 이를 가능하게 하는 구체적인 신경망 모델과 지도 표현 방식까지 단계적으로 해부한다.

대부분의 시맨틱 측위 시스템은 크게 두 단계의 프로세스를 따른다: 오프라인 지도 구축 단계와 온라인 측위 단계이다.1

시맨틱 측위의 성능은 기반이 되는 세그멘테이션 네트워크의 성능에 크게 좌우된다. 이 분야의 발전은 맥락(context)과 해상도(resolution) 사이의 본질적인 긴장 관계를 해결하려는 노력의 역사와 같다.

아키텍처 핵심 원리 측위에서의 주요 장점 한계점
FCN 완전 연결 계층을 합성곱 계층으로 대체하여 밀집 예측 수행 종단간(End-to-end) 세그멘테이션의 시초 풀링으로 인한 심각한 공간적 디테일 손실
U-Net 스킵 연결을 갖춘 인코더-디코더 구조 정밀한 경계 복원 능력이 뛰어나 정확한 객체 위치 파악에 유리 계산 비용이 상대적으로 높을 수 있음
DeepLab 아트러스(확장된) 합성곱 사용 해상도 손실 없이 넓은 수용 영역 확보, 다중 스케일 객체 처리에 강함 아트러스 합성곱의 계산 비용이 높을 수 있음
SAM 프롬프트 기반 파운데이션 모델 새로운 객체에 대한 제로샷(zero-shot) 일반화, 상호작용 및 오픈 월드 매핑 가능 명시적인 프롬프트가 필요하며, 완전 자율 매핑에는 별도의 가이드 시스템 필요

표 2: 시맨틱 세그멘테이션을 위한 주요 딥러닝 아키텍처

지도 표현 방식의 선택은 단순한 기술적 디테일이 아니라, 측위를 위해 어떤 정보를 본질적으로 간주할 것인가에 대한 철학적 선택을 반영한다.

이러한 다양한 지도 표현 방식은 단일한, 보편적인 지도가 아닌 작업별 최적화된 지도 표현으로 나아가는 추세를 보여준다. 미래의 시스템은 전역 측위를 위한 희소 시맨틱 지도, 장애물 회피를 위한 밀집 기하학적 지도, 경로 계획을 위한 BEV 지도 등 여러 개의 지도 계층이나 표현 방식을 동시에 유지 및 활용할 가능성이 높다. 이러한 다중 표현 접근법은 시스템의 효율성과 강인함을 동시에 향상시킬 수 있다.

이 섹션에서는 두 가지 주요 측위 패러다임을 핵심 성능 지표를 기준으로 직접 비교한다. 이 분석은 해당 분야의 연구 동기와 기술적 트레이드오프를 이해하는 데 중심적인 역할을 한다.

시맨틱 측위의 가장 큰 장점은 외형 변화에 대한 강인함이다.6

이러한 변화는 ‘강인함’의 정의 자체를 진화시키고 있다. 초기에는 강인함이란 조명이나 시점 변화에 불변하는 특징점 기술자를 만드는 것을 의미했다. 즉, 특징점 자체에 초점이 맞춰져 있었다.4 그러나 시맨틱 방법론은 초점을 전환한다. 특징점 자체를 불변하게 만드는 대신, 불변하는 속성(시맨틱 클래스)을 사용하여 잠재적으로 변할 수 있는 특징들의 매칭을 검증하거나 유도한다.29 이는 ‘이미지의 ‘창문’ 픽셀이 지도의 ‘창문’ 포인트와 일치하는가’와 같이, 의미론적으로 타당할 때 매칭이 강인하다고 판단하는 더 강력한 개념으로 이어진다. 이러한 재정의는 장면의 타당성에 대해 추론하는 새로운 연구 방향을 열어준다. 예를 들어, 시스템은 ‘하늘’ 영역에서 검출된 특징점들의 가중치를 낮출 수 있는데, 이는 하늘이 안정적인 3D 객체가 아니라는 사전 지식을 활용하는 것이다. 이는 시맨틱스가 가능하게 하는 일종의 상식적 추론이다.

시맨틱 측위와 특징점 기반 측위 사이에는 ‘정확도-프라이버시-비용(Accuracy-Privacy-Cost, APC) 삼중고’라는 근본적인 긴장 관계가 존재한다.

결론적으로, 현재 어떤 단일 방법도 이 삼중고를 완벽하게 해결하지 못한다. ‘최고의’ 접근법은 응용 분야에 따라 달라진다. 비실시간 증강현실을 위한 클라우드 서비스는 정확도를 우선시할 수 있고, 자율주행차는 실시간 성능(비용)이 필수적이며, 개인용 가정 로봇은 강력한 프라이버시 보장이 필요하다. 따라서 연구의 미래는 하나의 우월한 방법을 찾는 것이 아니라, 이 APC 공간 내의 다양한 지점에 맞춰 조정할 수 있는 기술 포트폴리오를 개발하는 데 있다.

기준 전통적 특징점 기반 (예: ORB-SLAM) 시맨틱 기반 (예: SegLoc, Semantic Fusion)
강인함 (조명/계절) 낮음 높음
강인함 (질감 부족 영역) 낮음 높음
프라이버시 낮음 (복원 가능한 특징점) 높음 (추상화된 비복원 레이블)
지도 크기 / 저장 공간 높음 (고차원 기술자 저장) 낮음 (정수 레이블 저장)
온라인 계산 비용 낮음 (최적화된 C++ 코드) 높음 (DNN 추론을 위한 GPU 필요)
훈련 데이터 의존성 낮음 (수작업 설계) 높음 (대규모 주석 데이터셋 필요)

표 3: 측위 방법론 비교 분석

이 섹션에서는 이론적 논의를 실제 사용 사례에 적용하여, 시맨틱 측위가 현대 자율 시스템을 위한 핵심 기술임을 입증한다.

시맨틱 측위의 주된 가치는 단순히 자세(pose)를 얻는 것이 아니라, 그 과정에서 부수적으로 얻어지는 ‘맥락(context)’에 있다. 전통적인 측위기는 6자유도 자세 값(x, y, z, roll, pitch, yaw)을 출력한다. 반면, 시맨틱 측위기는 그 자세를 찾는 과정에서 주변 장면에 대한 이해를 본질적으로 수행한다. 즉, 자신이 ‘도로’ 위에 있고, ‘건물’ 옆을 지나고 있으며, ‘횡단보도’에 접근하고 있다는 것을 안다.20 이 맥락 정보는 측위 과정의 부산물로서 즉시 사용 가능하다. 이는 시스템 아키텍처에 근본적인 변화를 가져온다. 측위, 인식, 계획을 위한 별도의 모듈 대신, 측위와 장면 이해가 동시에 수행되는 긴밀하게 결합된 통합 모델로 나아가는 추세가 나타나고 있다. 이제 ‘측위기’의 출력은 단순한 자세가 아니라, 의사결정 모듈에 직접적으로 입력되는 풍부하고 구조화된 주변 환경에 대한 이해가 된다.3

이러한 응용 분야들은 필요한 시맨틱 ‘어휘(vocabulary)’가 각기 다르다는 점을 명확히 보여준다. 자율주행차는 ‘차선’, ‘신호등’, ‘보행자’를 이해해야 하고 22, 실내 서비스 로봇은 ‘문’, ‘의자’, ‘테이블’을 알아야 하며 14, 숲을 매핑하는 드론은 ‘지면’, ‘나무’, ‘안전 착륙 구역’을 구분해야 한다.2 이 어휘들은 대부분 서로 겹치지 않는다. 자율주행용으로 훈련된 모델(예: Cityscapes 데이터셋 30)은 실내 환경에서 성능이 저하될 것이다. 이는 시맨틱 모델의 ‘일반성’이 중요한 실질적 과제임을 시사한다. SAM과 같은 파운데이션 모델이 오픈-어휘 세그멘테이션의 길을 열어주고는 있지만 32, 현재 대부분의 고성능 시스템은 특정 도메인에 미세 조정된 모델에 의존한다. 이는 새로운 도메인에 시맨틱 측위를 배포하기 위해서는 상당한 데이터 수집 및 주석 작업이 필요함을 의미하며, 이는 다음 섹션에서 논의할 ‘데이터 병목 현상’과 직접적으로 연결된다.

이 섹션에서는 시맨틱 측위의 광범위하고 안정적인 배포를 가로막는 장애물들을 비판적으로 검토한다. 환경적 문제, 기술적 한계, 그리고 실질적인 병목 현상에 초점을 맞춘다.

반복적 환경과 동적 환경이라는 두 가지 문제는 정보의 ‘신뢰성’이라는 동일한 문제의 양면과 같다. 반복적인 환경에서는 정보가 신뢰할 수는 있지만 고유하지 않아(지각적 모호성) 구별 정보가 부족하다.10 반면, 동적 환경에서는 움직이는 객체로부터의 정보가 고유하기는 하지만 신뢰할 수 없어(정적 세계 가정 위반) 오해의 소지가 있는 정보가 과잉된다.21 두 경우 모두 측위 시스템이 센서 입력을 액면 그대로 신뢰할 수 없다는 동일한 결과를 초래한다. 이는 진정으로 강인한 시스템이 메타 수준의 추론, 즉 ‘정보 신뢰성 필터’를 필요로 함을 시사한다. 이 필터는 시맨틱스, 모션 모델, 기하학적 제약을 사용하여 단순히 측위하는 것이 아니라, 먼저 입력 데이터의 품질과 신뢰성을 평가해야 한다. 미래의 시스템은 “나는 어디에 있는가?”라고 묻는 대신, “이 장면의 어떤 정보를 신뢰하여 내 위치를 파악할 수 있는가?”라고 물을 것이다.

데이터 주석 병목 현상은 시맨틱 측위의 광범위한 채택에 있어 주요 경제적 및 물류적 장벽이다. 세그멘테이션을 위한 핵심 기술(DNN)은 성숙했고 16, 측위에서 시맨틱스를 사용하는 알고리즘도 잘 정립되어 있다.1 그러나 새로운 도메인(예: 도시 주행에서 농업 로보틱스로)에 시스템을 배포하려면 새로운, 도메인 특화적인, 픽셀 단위로 주석이 달린 데이터셋이 필요하다.50 이 데이터 수집 및 주석 주기는 확장성을 저해하는 막대하고 반복적인 비용을 발생시킨다.50 따라서 가장 영향력 있는 미래 연구는 새로운 네트워크 아키텍처가 아니라, 지도 학습 데이터에 대한 의존성을 끊는 방법에 있을 수 있다. 이것이 바로 자기지도 학습 1, 준지도 학습 50, 그리고 제로샷 파운데이션 모델 32의 부상이 중요한 이유이다. 이들은 기술 발전을 수작업 노동에서 분리하여 시맨틱 측위를 전 세계적으로 경제적으로 실행 가능하게 만드는 경로를 제시한다.

과제 설명 문헌에서 제안된 해결/완화 전략 (출처)
지각적 모호성 서로 다른 위치가 시각적/의미론적으로 동일하게 보임 더 세분화된 시맨틱스 (예: 텍스트 인식 33), 다중 센서 융합 (LiDAR, 자기장 10), 확률적 다중 가설 추적 46
동적 객체 움직이는 객체가 정적 세계 가정을 위반하여 자세와 지도를 오염시킴 시맨틱/인스턴스 세그멘테이션을 통한 동적 특징 탐지 및 제거 21, 다중 시점 기하학을 이용한 모션 기반 필터링 9, 불확실한 영역 가중치 감소 49
계산 비용 자원 제한 하드웨어에서 실시간 세그멘테이션이 어려움 경량 네트워크 아키텍처 (예: BiSeNetV2 44), 지식 증류 49, 다중 분기 아키텍처 30
데이터 주석 대규모의 픽셀 단위 데이터셋 제작이 비싸고 시간이 많이 소요됨 준지도 학습 (의사 레이블링 50), 자기지도 학습 (기하학적 일관성 1), 추적을 통한 자동 레이블링 26, 파운데이션 모델 32

표 4: 주요 과제와 완화 전략 요약

이 마지막 섹션에서는 최신 연구 동향을 종합하여 시맨틱 측위 분야가 나아갈 방향을 조망한다.

궁극적인 목표는 단순히 시맨틱 지도가 아니라, 공간-시간적이며 의미론적인 “4D 세계 모델”을 구축하는 것이다. SLAM은 3D 기하학적 지도를 제공하고 9, 시맨틱 SLAM은 여기에 의미론적 계층을 추가한다.13 동적 환경에 대한 연구들은 여기에 네 번째 차원, 즉 ‘시간’을 추가하려는 시도이다. 이는 단순히 동적 객체를 필터링하는 것을 넘어, 그들의 움직임을 이해하고 예측하는 것을 포함한다.21 Khronos 논문은 단기적 동역학과 장기적 변화에 대해 추론하며, 환경과

시간에 따른 그 진화에 대한 계량-시맨틱 이해를 구축하는 것을 명시적으로 다룬다.45 진정한 최전선은 기하학(어디에 있는지), 시맨틱스(무엇인지), 그리고 동역학(어떻게 움직이고 변하는지)을 나타내는 통합 모델이다. 이러한 4D 세계 모델은 에이전트가 단순히 자신의 위치를 파악하는 것을 넘어 과거에 대해 추론하고(“어제 저 차가 여기에 주차되어 있었지”) 미래를 예측하며(“저 보행자는 길을 건널 것 같아”), 자율 능력의 심오한 도약을 가능하게 할 것이다.

또한, 컴퓨터 비전, 로보틱스, 자연어 처리 분야 간의 융합이 시맨틱 이해의 필요성에 의해 가속화되고 있다. 측위는 전통적으로 기하학에 초점을 맞춘 로보틱스/CV 문제였으나 9, 시맨틱 세그멘테이션이 주류 CV의 딥러닝을 도입했고 16, 이제는 SAM(CV)과 MLLM(NLP/CV)과 같은 파운데이션 모델이 오픈 어휘 이해를 제공하기 위해 통합되고 있다.32 작업은 “빨간 머그잔을 찾아라”와 같이 점점 더 언어 기반이 되고 있으며 34, 해결책은 세상을 해석하기 위해 언어 기반 모델을 사용하고 있다. 미래의 “시맨틱 측위” 전문가는 이 세 분야 모두에 능숙해야 할 것이다. 문제는 더 이상 기하학적 정합에 국한되지 않으며, 다중 모달의 공간-시간적 세계 이해 속에서 자연어 설명을 기반으로 할 수 있는 시스템을 구축하는 것으로 확장되고 있다. 이 학제 간 융합이야말로 차세대 자율 시스템을 형성하는 가장 중요한 추세이다.

  1. SegLoc: Learning Segmentation-Based … - CVF Open Access, accessed July 5, 2025, https://openaccess.thecvf.com/content/CVPR2023/papers/Pietrantoni_SegLoc_Learning_Segmentation-Based_Representations_for_Privacy-Preserving_Visual_Localization_CVPR_2023_paper.pdf
  2. Semantic Mapping for Autonomous Navigation and Exploration - Carnegie Mellon University’s Robotics Institute, accessed July 5, 2025, https://www.ri.cmu.edu/publications/semantic-mapping-for-autonomous-navigation-and-exploration/
  3. Simultaneous Localization and Mapping (SLAM) for Autonomous Driving: Concept and Analysis - MDPI, accessed July 5, 2025, https://www.mdpi.com/2072-4292/15/4/1156
  4. Deep Learning vs. Traditional Computer Vision - arXiv, accessed July 5, 2025, https://arxiv.org/pdf/1910.13796
  5. Methods for visual localization - Naver Labs Europe, accessed July 5, 2025, https://europe.naverlabs.com/blog/methods-for-visual-localization/
  6. Semantic Visual Localization - Andreas Geiger, accessed July 5, 2025, https://www.cvlibs.net/publications/Schoenberger2018CVPR.pdf
  7. Towards Robust Visual Localization in Challenging Conditions - Chalmers Research, accessed July 5, 2025, https://research.chalmers.se/publication/521033/file/521033_Fulltext.pdf
  8. (PDF) Semantic Visual Localization - ResearchGate, accessed July 5, 2025, https://www.researchgate.net/publication/321873727_Semantic_Visual_Localization
  9. This shows the principle of semantic segmentation. (a) Background… - ResearchGate, accessed July 5, 2025, https://www.researchgate.net/figure/This-shows-the-principle-of-semantic-segmentation-a-Background-represents-the-static_fig4_377245952
  10. (PDF) Infrastructure-Free Hierarchical Mobile Robot Global Localization in Repetitive Environments - ResearchGate, accessed July 5, 2025, https://www.researchgate.net/publication/353392106_Infrastructure-Free_Hierarchical_Mobile_Robot_Global_Localization_in_Repetitive_Environments
  11. What Is Semantic Segmentation? How It Works - Roboflow Blog, accessed July 5, 2025, https://blog.roboflow.com/what-is-semantic-segmentation/
  12. A Comparative Review on Enhancing Visual Simultaneous Localization and Mapping with Deep Semantic Segmentation - MDPI, accessed July 5, 2025, https://www.mdpi.com/1424-8220/24/11/3388
  13. An Overview on Visual SLAM: From Tradition to Semantic - MDPI, accessed July 5, 2025, https://www.mdpi.com/2072-4292/14/13/3010
  14. Semantic Mapping for Autonomous Subsea Intervention - PMC, accessed July 5, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC8538227/
  15. Path Planning Incorporating Semantic Information for Autonomous Robot Navigation - SciTePress, accessed July 5, 2025, https://www.scitepress.org/PublishedPapers/2022/111343/111343.pdf
  16. A Survey on Deep Learning-based Architectures for Semantic Segmentation on 2D Images, accessed July 5, 2025, https://www.tandfonline.com/doi/full/10.1080/08839514.2022.2032924
  17. Semantic Segmentation: A Practical Guide - Lightly AI, accessed July 5, 2025, https://www.lightly.ai/blog/semantic-segmentation-a-practical-guide
  18. Semantic segmentation: Complete guide [Updated 2024] SuperAnnotate, accessed July 5, 2025, https://www.superannotate.com/blog/guide-to-semantic-segmentation
  19. Image Segmentation: Architectures, Losses, Datasets, and Frameworks - neptune.ai, accessed July 5, 2025, https://neptune.ai/blog/image-segmentation
  20. Probabilistic Semantic Mapping for Autonomous Driving in Urban …, accessed July 5, 2025, https://www.mdpi.com/1424-8220/23/14/6504
  21. MISD‐SLAM: Multimodal Semantic SLAM for Dynamic Environments …, accessed July 5, 2025, https://onlinelibrary.wiley.com/doi/10.1155/2022/7600669
  22. Monocular Localization with Semantics Map for Autonomous Vehicles - arXiv, accessed July 5, 2025, https://arxiv.org/html/2406.03835v1
  23. Monocular Localization with Semantics Map for Autonomous Vehicles - arXiv, accessed July 5, 2025, https://arxiv.org/pdf/2406.03835?
  24. AUTONOMOUS VEHICLES LOCALISATION BASED ON SEMANTIC …, accessed July 5, 2025, https://isprs-archives.copernicus.org/articles/XLVIII-1-W2-2023/901/2023/isprs-archives-XLVIII-1-W2-2023-901-2023.pdf
  25. Visual Localization Using Semantic Segmentation and Depth Prediction - arXiv, accessed July 5, 2025, https://arxiv.org/abs/2005.11922
  26. Semantic Segmentation for 3D Localization in … - Vincent Lepetit, accessed July 5, 2025, https://vincentlepetit.github.io/files/papers/comp_armagan_jurse17.pdf
  27. [2210.04543] Sparse Semantic Map-Based Monocular Localization in Traffic Scenes Using Learned 2D-3D Point-Line Correspondences - arXiv, accessed July 5, 2025, https://arxiv.org/abs/2210.04543
  28. Semantic Visual Localization - CVF Open Access, accessed July 5, 2025, https://openaccess.thecvf.com/content_cvpr_2018/papers/Schonberger_Semantic_Visual_Localization_CVPR_2018_paper.pdf
  29. [2005.10766] Dense Semantic 3D Map Based Long-Term Visual Localization with Hybrid Features - arXiv, accessed July 5, 2025, https://arxiv.org/abs/2005.10766
  30. On Efficient Real-Time Semantic Segmentation: A Survey - arXiv, accessed July 5, 2025, https://arxiv.org/pdf/2206.08605
  31. Semantic Segmentation in Computer Vision - Pareto.AI, accessed July 5, 2025, https://pareto.ai/blog/semantic-segmentation
  32. A Survey on Segment Anything Model (SAM): Vision Foundation Model Meets Prompt Engineering - arXiv, accessed July 5, 2025, https://arxiv.org/html/2306.06211v4
  33. Resolving Loop Closure Confusion in Repetitive Environments for Visual SLAM through AI Foundation Models Assistance - Infovaya, accessed July 5, 2025, https://events.infovaya.com/uploads/documents/pdfviewer/4d/f7/131260-1993.pdf
  34. Semantic Mapping in Indoor Embodied AI – A Comprehensive Survey and Future Directions, accessed July 5, 2025, https://arxiv.org/html/2501.05750v1
  35. Compact 3D Map-Based Monocular Localization Using Semantic Edge Alignment - arXiv, accessed July 5, 2025, https://arxiv.org/abs/2103.14826
  36. SVS-VPR: A Semantic Visual and Spatial Information-Based Hierarchical Visual Place Recognition for Autonomous Navigation in Challenging Environmental Conditions - MDPI, accessed July 5, 2025, https://www.mdpi.com/1424-8220/24/3/906
  37. General and feature-based semantic representations in the semantic network - PMC, accessed July 5, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC7265368/
  38. Privacy in Visual Localization - Chalmers Research, accessed July 5, 2025, https://research.chalmers.se/publication/545640/file/545640_Fulltext.pdf
  39. SegLoc: Learning Segmentation-Based Representations for Privacy-Preserving Visual Localization - CVPR 2023 Open Access Repository, accessed July 5, 2025, https://openaccess.thecvf.com/content/CVPR2023/html/Pietrantoni_SegLoc_Learning_Segmentation-Based_Representations_for_Privacy-Preserving_Visual_Localization_CVPR_2023_paper.html
  40. Revision History for SegLoc: Learning Segmentation-Based… - OpenReview, accessed July 5, 2025, https://openreview.net/revisions?id=8VQy61noaC
  41. PyTorch implementation of over 30 realtime semantic segmentations models, e.g. BiSeNetv1, BiSeNetv2, CGNet, ContextNet, DABNet, DDRNet, EDANet, ENet, ERFNet, ESPNet, ESPNetv2, FastSCNN, ICNet, LEDNet, LinkNet, PP-LiteSeg, SegNet, ShelfNet, STDC, SwiftNet, and support knowledge distillation, distributed training, Optuna etc. - GitHub, accessed July 5, 2025, https://github.com/zh320/realtime-semantic-segmentation-pytorch
  42. Deep Semantic Segmentation for Multi-Source Localization Using Angle of Arrival Measurements - arXiv, accessed July 5, 2025, https://arxiv.org/html/2506.10107v1
  43. Bridging the Gap Between Computational Efficiency and Segmentation Fidelity in Object-Based Image Analysis - MDPI, accessed July 5, 2025, https://www.mdpi.com/2076-2615/14/24/3626
  44. [Literature Review] Monocular Localization with Semantics Map for Autonomous Vehicles, accessed July 5, 2025, https://www.themoonlight.io/en/review/monocular-localization-with-semantics-map-for-autonomous-vehicles
  45. Khronos: A Unified Approach for Spatio-Temporal Metric-Semantic SLAM in Dynamic Environments - Robotics, accessed July 5, 2025, https://www.roboticsproceedings.org/rss20/p081.pdf
  46. Semantic Localization System for Robots at Large Indoor Environments Based on Environmental Stimuli - MDPI, accessed July 5, 2025, https://www.mdpi.com/1424-8220/20/7/2116
  47. arxiv.org, accessed July 5, 2025, https://arxiv.org/html/2410.12169v1
  48. arxiv.org, accessed July 5, 2025, https://arxiv.org/html/2411.06752v1
  49. CVPR Poster LiSA: LiDAR Localization with Semantic Awareness, accessed July 5, 2025, https://cvpr.thecvf.com/virtual/2024/poster/30427
  50. Semi-Supervised Semantic Segmentation Based on Pseudo-Labels: A Survey - arXiv, accessed July 5, 2025, https://arxiv.org/html/2403.01909v1
  51. Where do you apply the concept of ‘semantic segmentation’? - Quora, accessed July 5, 2025, https://www.quora.com/Where-do-you-apply-the-concept-of-semantic-segmentation
  52. A Review of Research on SLAM Technology Based on the Fusion of …, accessed July 5, 2025, https://www.mdpi.com/1424-8220/25/5/1447