Booil Jung

시맨틱 맵 매칭

로보틱스와 자율 시스템 분야에서 가장 근본적이면서도 중요한 질문은 “나는 어디에 있는가?”이다. 이 질문에 답하는 과정, 즉 에이전트(로봇, 자율주행차 등)가 주어진 기준 좌표계 내에서 자신의 자세(위치와 방향)를 결정하는 과정을 위치 인식(Localization)이라고 한다.1 이는 로봇이 의미 있는 작업을 수행하기 위한 전제 조건이며, 자율성의 핵심을 이루는 기술이다.

위치 인식 기술의 초기 발전은 주로 기하학적 특징에 의존하는 전통적인 접근법에 의해 주도되었다. 이러한 방법들은 센서 데이터를 순수한 기하학적 형태로 해석하고, 이를 기존 맵과 정합하여 위치를 추정했다. 대표적인 기법들은 다음과 같다.

하지만 순수한 기하학적 접근법은 명백한 한계를 지닌다. 이러한 방법들은 환경이 대부분 정적이라는 암묵적인 가정 하에 설계되었기 때문에, 현실 세계의 복잡성과 동역학성에 직면했을 때 취약점을 드러낸다. 예를 들어, 초기 자세 오차가 크거나 센서 측정치 간의 중첩 영역이 적을 경우 정합에 실패하기 쉽다.5 또한, 터널과 같이 기하학적 특징이 부족하고 반복적인 구조를 가진 환경에서는 위치를 특정하기 어렵다.6 가장 치명적인 약점은 동적 객체(dynamic objects)에 대한 처리 능력이다. 보행자, 다른 차량 등 움직이는 객체들은 기하학적 방법론에서 단순한 노이즈나 이상치로 간주되어 위치 추정의 정확도를 심각하게 저하시키는 주요 원인이 된다.1

기하학적 접근법의 본질적인 한계는 ‘정적 세계 가정(static world assumption)’의 실패에서 비롯된다. 초기 로보틱스 연구는 통제된 정적 환경에서 이루어졌으며, 이곳에서는 기하학적 방법만으로도 충분했다. 그러나 자율주행차나 서비스 로봇처럼 인간 중심의 복잡하고 동적인 환경으로 연구 무대가 옮겨가면서, 동적 객체 문제는 기술 발전의 주요 병목 현상으로 대두되었다.1 기존 시스템은 움직이는 객체들을 이상치로 간주하고 RANSAC과 같은 알고리즘으로 제거하려 했지만 4, 도심처럼 환경의 대부분이 동적일 수 있는 상황에서는 이러한 접근이 더 이상 유효하지 않았다.

이러한 배경 속에서 딥러닝 기반의 객체 탐지 및 분할 기술의 등장은 새로운 해법을 제시했다.9 단순히 이해할 수 없는 데이터를 ‘거부’하는 대신, 시스템이 동적 객체를 능동적으로 ‘인식’하고 ‘분류’할 수 있게 된 것이다. 이는 위치 인식 패러다임의 근본적인 전환을 의미했다. 즉, ‘움직이는 것을 이해하고 무시하는’ 능동적 프로세스가 ‘세계는 정적’이라는 취약한 가정을 대체하게 된 것이다. 이것이 바로 시맨틱(semantic), 즉 의미론적 정보가 위치 인식에 도입된 핵심적인 이유다.

시맨틱 접근법은 단순히 점과 선을 보는 것을 넘어, 시스템이 환경 내의 객체를 인식하고 “자동차”, “건물”, “신호등”과 같은 의미론적 레이블을 부여하는 것을 의미한다. 이는 기하학적 정보에 인지적 맥락을 더하여, 로봇이 환경을 보다 깊이 있게 이해하도록 돕는다.10

이러한 이해를 바탕으로 구축되는 것이 시맨틱 맵(Semantic Map)이다. 시맨틱 맵은 기하학적 정보와 의미론적 정보를 결합한 환경의 표현 방식이다.11 단순한 점유 격자 맵(occupancy grid map)을 넘어, 인간이 이해하기 쉬운 풍부한 모델을 제공한다.13 시맨틱 맵은 다양한 형태로 표현될 수 있다.

시맨틱 정보를 활용함으로써 얻는 핵심적인 이점은 다음과 같다.

이러한 시맨틱 기술의 발전은 대규모 데이터셋의 등장과 밀접한 관련이 있다. 딥러닝 모델, 특히 객체 탐지나 분할 모델은 방대한 양의 레이블링된 데이터를 필요로 한다. KITTI와 같은 초기 데이터셋은 획기적이었지만, 주석의 밀도가 상대적으로 낮아 훈련시킬 수 있는 시맨틱 모델의 복잡성에 한계가 있었다.22 이후 360도 센서와 KITTI보다 7배 많은 객체 주석을 제공하는 nuScenes 데이터셋의 등장은 다중 모드 인식 시스템 훈련에 필요한 데이터를 공급하며 전환점을 마련했다.24 또한, Argoverse 데이터셋은 풍부한 벡터 기반 시맨틱 레이어를 포함한 HD 맵 자체에 중점을 두어 맵 기반 위치 인식 및 예측 연구를 직접적으로 촉진했다.16 이처럼 더 나은 데이터의 가용성은 더 강력한 시맨틱 알고리즘의 개발을 가능하게 하고, 역으로 더 강건한 시맨틱 위치 인식에 대한 요구는 더 크고 상세한 데이터셋의 구축을 견인하는 선순환 구조를 형성했다. Argoverse 1에서 더 풍부한 맵을 제공하는 Argoverse 2로의 발전이 그 대표적인 예이다.16

시맨틱 맵 매칭 기술은 주로 SLAM과 시각적 장소 인식(Visual Place Recognition, VPR)이라는 두 가지 큰 틀 안에서 발전하고 적용된다.

결론적으로, 딥러닝 기반 시맨틱 맵 매칭은 단순한 기하학적 정합의 한계를 극복하고, 로봇이 동적인 현실 세계를 이해하고 상호작용할 수 있도록 하는 핵심 기술로 자리 잡았다. 이는 단순한 기술적 향상을 넘어, 자율 시스템이 진정한 지능을 갖추기 위한 필수적인 패러다임 전환이라 할 수 있다.

시맨틱 위치 인식의 성공은 다양한 딥러닝 아키텍처의 발전과 밀접하게 연관되어 있다. 이 파트에서는 시맨틱 파이프라인의 각 하위 작업을 수행하는 데 사용되는 핵심 딥러닝 모델들을 심층적으로 분석한다. 각 모델군이 어떤 역할을 하는지뿐만 아니라, 그들의 구조적 특성이 왜 특정 작업에 적합한지를 해부한다.

합성곱 신경망(Convolutional Neural Networks, CNNs)은 2D 이미지나 라이다의 거리 이미지(range image)와 같이 격자 구조를 가진 데이터를 처리하는 데 있어 가장 기본적이면서도 강력한 도구다. CNN의 계층적 구조는 이미지의 공간적 특징을 효과적으로 학습하며, 단순한 엣지나 질감에서부터 복잡한 객체의 부분에 이르기까지 특징의 위계를 형성한다.35

샴 네트워크(Siamese Network)는 동일한 가중치를 공유하는 두 개 이상의 동일한 하위 네트워크로 구성된 아키텍처다.37 이 네트워크의 목표는 입력을 분류하는 것이 아니라, 입력 데이터(예: 이미지)를 특징 공간(feature space)으로 매핑하는 임베딩 함수를 학습하는 것이다. 이 특징 공간에서는 의미론적 유사도가 임베딩 간의 거리로 표현된다.40

제한된 수용장(receptive field)을 갖는 CNN과 달리, 트랜스포머(Transformer)의 셀프 어텐션(self-attention) 메커니즘은 시퀀스 내의 모든 요소(예: 모든 이미지 패치)가 다른 모든 요소에 주의를 기울일 수 있게 한다.43 이는 모델이 장거리 의존성(long-range dependency)과 전역적 컨텍스트를 포착할 수 있도록 하는 핵심적인 장점이다.

CNN은 풍부한 지역적 특징 맵(local feature map)을 생성한다. 효율적인 이미지 검색(VPR의 핵심)을 위해서는 이 수많은 지역적 특징들을 하나의 간결한 전역 기술자 벡터(global descriptor vector)로 집계(aggregate)해야 한다.48 이 과정은 여러 단계를 거쳐 발전해왔으며, 이는 특징 공학에서 종단간 표현 학습으로의 명확한 전환 궤적을 보여준다.

  1. 초기 단계 (사전 딥러닝): 초기에는 SIFT와 같은 수동 설계 특징과 BoW(Bag-of-Visual-Words)나 VLAD(Vector of Locally Aggregated Descriptors)와 같은 수동 집계 방식을 사용했다.36 BoW는 지역 특징을 ‘시각적 단어’의 히스토그램으로 양자화하는 반면, VLAD는 특징과 할당된 클러스터 중심 간의 잔차(residual)를 합산하여 더 많은 정보를 보존했다.36

  2. 초기 딥러닝 도입: 다음 단계에서는 CNN 활성화 값과 같은 학습된 특징을 사용했지만, 집계 방식은 여전히 합(sum) 또는 최대 풀링(max pooling)이나 기존 VLAD와 같이 고정되어 있었다.35 특징 추출은 학습되었지만, 집계는 여전히 수동이었다.

  3. 종단간 CNN (NetVLAD): 이 흐름의 정점은 NetVLAD의 등장이었다. NetVLAD는 VLAD 집계 과정을 CNN 내에서 미분 가능한 레이어로 구현한 획기적인 연구다.48 이로써 특징 추출부터 전역 기술자 생성까지 전체 파이프라인을 장소 인식 작업에 맞게 종단간(end-to-end)으로 훈련할 수 있게 되었다. NetVLAD는 수많은 지도 학습 기반 VPR 방법론의 기초가 되었다.50

  4. 최신 발전: NetVLAD 이후에도 Patch-NetVLAD는 여러 스케일의 패치에 VLAD를 적용하고 그 결과를 융합하여 강건성을 높였고 48,

    SegVLAD는 시맨틱 분할을 먼저 수행한 후 분할된 영역 단위로 기술자를 계산하고 집계함으로써 고수준의 시맨틱 정보를 집계 과정에 명시적으로 통합했다.53

  5. 종단간 트랜스포머: 현재 최신 기술은 CNN 백본 자체를 전역적 관계를 학습하는 ViT로 대체하고, 그 출력 토큰을 집계하는 방식이다. 이는 훨씬 더 강력하고 맥락을 인지하는 표현을 종단간으로 학습하는 것을 의미한다.46

이러한 발전 과정은 미래의 혁신이 개별 모듈의 개선보다는, 인식, 표현, 매칭을 공동으로 학습하는 새로운 종단간 아키텍처에서 나올 가능성이 높다는 것을 시사한다.

또한, 이 툴킷들은 두 가지 상반된 철학을 반영한다. CNN 기반 분할/탐지는 씬에 ‘무엇(what)’이 있는지를 식별하는 데 중점을 둔다. 반면, 샴 네트워크나 VPR 중심 아키텍처(NetVLAD, 트랜스포머)는 그 장소가 ‘어디(where)’인지를 나타내는 고유한 시각적 시그니처를 학습하는 데 집중한다. 객체 탐지기는 “자동차, 사람, 건물이 있다”고 말해주며 9, 이는 시맨틱 SLAM에서 이 객체들이 랜드마크가 되는 데 결정적이다. VPR 모델은 전체 이미지를 보고 “이곳은 장소 #472”라는 단일 벡터를 생성한다.50 가장 진보된 시스템은 이 두 가지를 결합한다. 예를 들어, SegVLAD는 먼저 분할을 통해 씬에 ‘무엇’이 있는지 이해한 다음, 이 정보를 사용하여 ‘어디’에 대한 더 나은 기술자를 구축한다.53 시맨틱 SLAM은 객체 탐지(‘무엇’)를 사용하여 백엔드에서 강건한 데이터 연관성(‘어디’)을 생성한다.19 이는 ‘장소’에 대한 전체적인 이해를 구성 ‘객체’의 견고한 식별에 기반을 두는 하이브리드 모델이 미래의 방향임을 암시한다.

이 파트에서는 개별 딥러닝 모듈에서 완전한 시스템으로 논의를 전환한다. 딥러닝 모듈들이 어떻게 기능적인 SLAM 및 위치 인식 프레임워크에 통합되는지 분석하고, 주요 실제 응용 분야에서의 배포 사례를 탐구하며, 실질적인 영향과 엔지니어링 과제를 조명한다.

시맨틱 SLAM은 전통적인 SLAM 파이프라인에 파트 2에서 논의된 시맨틱 추출 모듈을 통합한 것이다.9 SLAM 파이프라인은 일반적으로 프론트엔드(추적/주행 거리계)와 백엔드(맵핑/최적화)로 구성된다.

자율주행 분야는 시맨틱 맵 매칭 기술이 가장 활발하게 적용되는 영역 중 하나이며, 이는 두 가지 주요 패러다임, 즉 ‘실시간 SLAM’과 ‘사전 구축 HD 맵’의 차이를 명확히 보여준다. 로보틱스나 증강현실(AR) 분야에서는 환경이 미지이거나 예측 불가능하게 변할 수 있으므로 SLAM을 통해 실시간으로 맵을 구축하는 경우가 많다.54 반면, 안전이 최우선인 자율주행 산업은 수천 시간 동안의 주행 데이터를 통해 검증된, 정밀하게 제작된 사전 구축 HD 맵을 기반으로 하는 접근법으로 수렴했다.17

미래에는 이 두 패러다임이 융합될 가능성이 높다. 자율주행차는 HD 맵에 의존하면서도, 맵에 아직 반영되지 않은 변화를 감지하고 적응하기 위해 “생애주기 SLAM(lifelong SLAM)” 기능을 필요로 할 것이다. 반대로, 서비스 로봇은 건물의 기본 맵을 다운로드한 후 SLAM을 사용하여 이를 정교화하고 지역적 변화에 적응하는 형태가 될 수 있다.

시맨틱 맵은 자율주행을 넘어 다양한 로봇 및 AR 응용 분야에서 지능적인 행동을 가능하게 하는 핵심 요소이다. 시맨틱 정보는 저수준의 상태 추정 및 제어 루프와 고수준의 작업 계획 및 의사결정 두뇌를 연결하는 다리 역할을 한다. 순수한 기하학적 맵은 로봇에게 (x, y, θ) 좌표와 장애물 위치를 알려주어 기본적인 경로 계획을 가능하게 하지만, 시맨틱 맵은 로봇에게 현재 위치가 부엌이며 냉장고 옆이라는 맥락을 제공한다. 이러한 맥락은 “음료수 가져와”와 같은 추상적인 명령을 “부엌으로 이동 -> 냉장고 찾기 -> 냉장고 열기 -> 음료수 잡기”와 같은 구체적인 계획으로 변환할 수 있게 한다.21

결론적으로, 시맨틱 위치 인식은 단순한 위치 추정 기술의 개선이 아니라, 로봇이 단순한 ‘이동체’에서 복잡하고 맥락에 의존적인 작업을 이해하고 수행할 수 있는 ‘지능형 에이전트’로 진화하는 데 필요한 기반 기술이다.

이 마지막 파트에서는 기술 발전을 측정하는 데 사용되는 도구, 연구자들이 직면한 주요 미해결 문제, 그리고 이 분야의 미래를 정의할 새로운 트렌드를 종합적으로 살펴본다.

표준화된 데이터셋과 평가 지표는 다양한 방법론 간의 공정한 비교를 가능하게 하고, 연구 개발을 촉진하는 데 필수적이다.62

다음 표는 시맨틱 위치 인식 연구에 있어 주요 자율주행 데이터셋의 핵심적인 차이점과 진화 과정을 요약한 것이다. 이는 특정 알고리즘이 각 데이터셋이 제시하는 도전과 기회에 대응하여 어떻게 개발되었는지 맥락을 파악하는 데 도움을 준다.

특성 KITTI nuScenes Argoverse 2
주요 센서 전방 스테레오 카메라, 64채널 라이다 22 360도 카메라 (6대), 레이더 (5대), 32채널 라이다 24 360도 링 카메라 + 스테레오, 64채널 라이다 16
맵 데이터 원시 데이터 및 캘리브레이션 정보 제공 23 비트맵 맵 레이어 (주행 가능 영역, 보도), 라이다 기반 맵 65 시나리오별 벡터 맵 (차선 기하, 경계 유형, 횡단보도 등) 16
시맨틱 주석 희소한 3D 경계 상자 23 23개 클래스에 대한 조밀한 3D 경계 상자 및 속성 정보 25 30개 클래스에 대한 조밀한 3D 경계 상자 16
주요 벤치마크 주행 거리계, 3D 객체 탐지 23 3D 탐지, 추적, 예측, 라이다 분할 76 동선 예측, 3D 탐지, 맵 변화 감지 16

딥러닝 기반 시맨틱 매칭은 큰 발전을 이루었지만, 실제 세계의 가혹한 조건에서는 여전히 해결해야 할 과제들이 남아있다.

이 분야의 연구는 이제 단일 세션 작동을 넘어, 로봇이 장기간(수 주, 수개월, 수년)에 걸쳐 작동하며 지속적으로 맵을 업데이트하고 환경 변화에 적응하는 ‘생애주기(lifelong)’ 자율성으로 나아가고 있다. 이는 정확도 중심의 전통적인 SLAM을 넘어 적응성과 학습을 우선시하는 “SLAM 2.0” 시대를 예고한다.80 이러한 미래를 이끌어갈 핵심 트렌드는 다음과 같다.

이 분야의 연구는 두 갈래로 나뉘는 경향을 보인다. 하나는 벤치마크에서 최고의 점수를 달성하기 위해 계산 비용에 상관없이 거대한 모델을 제안하는 ‘정확도 지상주의’ 연구이다.47 다른 하나는 양자화, 가지치기, 하드웨어 공동 설계 등을 통해 이러한 고급 기능을 실제 로봇에 적용 가능하게 만드는 ‘배포를 위한 효율성’ 중심의 엔지니어링 연구이다.47 미래의 발전은 이 두 연구 흐름의 상호작용 속에서 이루어질 것이다. 클라우드 규모의 인식 모델(오프라인 맵 생성이나 훈련에 사용)과, 엣지 디바이스에서의 실시간 추론을 위한 고도로 최적화된 모델이 병렬적으로 개발될 것이다. 지식 증류 기술은 전자의 능력을 후자로 이전하는 데 있어 점점 더 중요한 역할을 하게 될 것이다.47

딥러닝 기반 시맨틱 맵 매칭은 로봇과 자율 시스템의 위치 인식 패러다임을 근본적으로 변화시켰다. 순수한 기하학적 특징에 의존하던 초기 방법론의 한계, 특히 동적 환경에서의 취약성을 극복하기 위해 등장한 시맨틱 접근법은 이제 자율성의 핵심 기술로 자리 잡았다. CNN, 트랜스포머, 샴 네트워크와 같은 딥러닝 모델들은 환경 내 객체를 인식하고, 씬의 전역적 맥락을 이해하며, 장소 간의 유사성을 학습하는 강력한 도구를 제공했다.

자율주행 분야에서는 사전 구축된 고정밀 시맨틱 HD 맵을 이용한 위치 인식이 표준으로 자리 잡았으며, 이는 안전성과 신뢰성을 극대화하는 전략이다. 반면, 로보틱스와 AR 분야에서는 미지의 환경에 대한 적응성을 위해 실시간으로 맵을 생성하고 업데이트하는 시맨틱 SLAM 기술이 핵심적인 역할을 한다.

현재 이 분야는 외형 및 시점 변화, 인식적 모호성, 그리고 대규모 모델의 효율성 문제와 같은 지속적인 과제에 직면해 있다. 그러나 파운데이션 모델의 등장으로 시맨틱의 정의가 단순한 ‘범주’에서 풍부한 ‘맥락적 지식’으로 확장되고 있으며, 다중 모드 센서 융합과 생애주기 SLAM에 대한 연구는 시스템의 강건성과 자율성을 새로운 차원으로 끌어올릴 잠재력을 보여주고 있다.

미래의 시맨틱 위치 인식 기술은 단순히 ‘어디에 있는가’라는 질문에 더 정확하게 답하는 것을 넘어, 로봇이 환경을 ‘이해’하고, 인간과 ‘상호작용’하며, 장기간에 걸쳐 ‘학습’하고 ‘적응’하는 지능형 에이전트로 진화하는 데 결정적인 기반이 될 것이다. 정확도와 효율성이라는 두 가지 목표를 동시에 추구하는 연구의 발전 속에서, 시맨틱 맵 매칭은 진정한 자율 시스템의 시대를 여는 열쇠가 될 것이다.

  1. Semantic visual simultaneous localization and mapping (SLAM) using deep learning for dynamic scenes - PMC, accessed July 1, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10588701/
  2. Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/385721155_Learning_from_Feedback_Semantic_Enhancement_for_Object_SLAM_Using_Foundation_Models
  3. Localization and Mapping for Self-Driving Vehicles: A Survey - MDPI, accessed July 1, 2025, https://www.mdpi.com/2075-1702/12/2/118
  4. map matching - velog, accessed July 1, 2025, https://velog.io/@jk01019/map-matching
  5. Demonstration of semantic map matching using three local maps, where… - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/figure/Demonstration-of-semantic-map-matching-using-three-local-maps-where-green-orange-and_fig5_350516892
  6. Multi-sensor Fusion Simultaneous Localization and Mapping: A Systematic Review, accessed July 1, 2025, https://www.researchgate.net/publication/384028361_Multi-sensor_Fusion_Simultaneous_Localization_and_Mapping_A_Systematic_Review
  7. 이동로봇을 위한 SLAM 기술, accessed July 1, 2025, http://icros.org/Newsletter/202201/5.%EB%A1%9C%EB%B4%87%EA%B8%B0%EC%88%A0%EB%A6%AC%EB%B7%B0.pdf
  8. CMC Free Full-Text Visual SLAM Based on Object Detection Network: A Review, accessed July 1, 2025, https://www.techscience.com/cmc/v77n3/55027/html
  9. Semantic Visual Simultaneous Localization and Mapping: A Survey - arXiv, accessed July 1, 2025, https://arxiv.org/pdf/2209.06428
  10. Collaborative Mobile Robotics for Semantic Mapping: A Survey - MDPI, accessed July 1, 2025, https://www.mdpi.com/2076-3417/12/20/10316
  11. Semantic Maps in Robotics - Number Analytics, accessed July 1, 2025, https://www.numberanalytics.com/blog/ultimate-guide-semantic-maps-robotics
  12. Is Semantic SLAM Ready for Embedded Systems ? A Comparative Survey - arXiv, accessed July 1, 2025, https://arxiv.org/html/2505.12384v1
  13. Semantic Mapping for Navigation - Jianhao Jiao, accessed July 1, 2025, https://gogojjh.github.io/projects/2024_semantic_mapping/
  14. 토픽맵을 이용한 시소러스의 구조화 연구*, accessed July 1, 2025, https://scholarworks.bwise.kr/cau/bitstream/2019.sw.cau/29539/1/%ED%86%A0%ED%94%BD%EB%A7%B5%EC%9D%84%20%EC%9D%B4%EC%9A%A9%ED%95%9C%20%EC%8B%9C%EC%86%8C%EB%9F%AC%EC%8A%A4%EC%9D%98%20%EA%B5%AC%EC%A1%B0%ED%99%94%20%EC%97%B0%EA%B5%AC.pdf
  15. IntelliMove: Enhancing Robotic Planning with Semantic Mapping - arXiv, accessed July 1, 2025, https://arxiv.org/html/2410.14851v1
  16. Argoverse 2, accessed July 1, 2025, https://www.argoverse.org/av2.html
  17. 3 Ways Cruise HD Maps Give Our Self-Driving Vehicles An Edge by Erin Antcliffe - Medium, accessed July 1, 2025, https://medium.com/cruise/3-ways-cruise-hd-maps-give-our-self-driving-cars-an-edge-b6444720021c
  18. Survey of simultaneous localization and mapping based on environmental semantic information, accessed July 1, 2025, https://cje.ustb.edu.cn/en/article/doi/10.13374/j.issn2095-9389.2020.11.09.006
  19. Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models - arXiv, accessed July 1, 2025, https://arxiv.org/html/2411.06752v1
  20. www.numberanalytics.com, accessed July 1, 2025, https://www.numberanalytics.com/blog/semantic-mapping-robotics-step-by-step#:~:text=Semantic%20maps%20can%20be%20used,path%20to%20a%20goal%20location.
  21. Unlocking Robot Intelligence with Semantic Mapping - Number Analytics, accessed July 1, 2025, https://www.numberanalytics.com/blog/semantic-mapping-robotics-step-by-step
  22. The KITTI Vision Benchmark Suite - Andreas Geiger, accessed July 1, 2025, https://www.cvlibs.net/datasets/kitti/
  23. KITTI Dataset Papers With Code, accessed July 1, 2025, https://paperswithcode.com/dataset/kitti
  24. Scene planning - nuScenes, accessed July 1, 2025, https://www.nuscenes.org/nuscenes
  25. nuScenes: A multimodal dataset for autonomous driving - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/332011352_nuScenes_A_multimodal_dataset_for_autonomous_driving
  26. Argoverse, accessed July 1, 2025, https://www.argoverse.org/
  27. [1911.02620] Argoverse: 3D Tracking and Forecasting with Rich Maps - arXiv, accessed July 1, 2025, https://arxiv.org/abs/1911.02620
  28. (PDF) A survey of image semantics-based visual simultaneous localization and mapping: Application-oriented solutions to autonomous navigation of mobile robots - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/341348773_A_survey_of_image_semantics-based_visual_simultaneous_localization_and_mapping_Application-oriented_solutions_to_autonomous_navigation_of_mobile_robots
  29. arXiv:2412.06153v1 [cs.CV] 9 Dec 2024, accessed July 1, 2025, https://arxiv.org/pdf/2412.06153
  30. CVPR Poster Optimal Transport Aggregation for Visual Place Recognition, accessed July 1, 2025, https://cvpr.thecvf.com/virtual/2024/poster/30161
  31. General place recognition performance for the different season… - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/figure/General-place-recognition-performance-for-the-different-season-pairings-using-sequence_fig2_283623386
  32. [2103.06443] Where is your place, Visual Place Recognition? - arXiv, accessed July 1, 2025, https://arxiv.org/abs/2103.06443
  33. (PDF) Visual Place Recognition: A Tutorial - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/374128870_Visual_Place_Recognition_A_Tutorial
  34. SVS-VPR: A Semantic Visual and Spatial Information-Based Hierarchical Visual Place Recognition for Autonomous Navigation in Challenging Environmental Conditions, accessed July 1, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10857550/
  35. (PDF) Convolutional Neural Network-based Place Recognition - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/267983111_Convolutional_Neural_Network-based_Place_Recognition
  36. Place Recognition: An Overview of Vision Perspective - MDPI, accessed July 1, 2025, https://www.mdpi.com/2076-3417/8/11/2257
  37. Siamese Tracking Network with Spatial-Semantic-Aware Attention and Flexible Spatiotemporal Constraint - MDPI, accessed July 1, 2025, https://www.mdpi.com/2073-8994/16/1/61
  38. Local Semantic Siamese Networks for Fast Tracking - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/337974203_Local_Semantic_Siamese_Networks_for_Fast_Tracking
  39. How To Train Your Siamese Neural Network Towards Data Science, accessed July 1, 2025, https://towardsdatascience.com/how-to-train-your-siamese-neural-network-4c6da3259463/
  40. Semantic Textual Similarity with Siamese Neural Networks - ACL Anthology, accessed July 1, 2025, https://aclanthology.org/R19-1116/
  41. Siamese Neural Networks for One-shot Image Recognition - CMU School of Computer Science, accessed July 1, 2025, https://www.cs.cmu.edu/~rsalakhu/papers/oneshot1.pdf
  42. Camera localization with Siamese neural networks using iterative …, accessed July 1, 2025, https://academic.oup.com/jcde/article/9/4/1482/6650218
  43. A Survey on Visual Transformer - SciSpace, accessed July 1, 2025, https://scispace.com/pdf/a-survey-on-vision-transformer-3fin6y51.pdf
  44. Visual place recognition from end-to-end semantic scene … - Frontiers, accessed July 1, 2025, https://www.frontiersin.org/journals/robotics-and-ai/articles/10.3389/frobt.2024.1424883/full
  45. A Comprehensive Survey of Transformers for Computer Vision - MDPI, accessed July 1, 2025, https://www.mdpi.com/2504-446X/7/5/287
  46. PlaceFormer: Transformer-Based Visual Place Recognition Using …, accessed July 1, 2025, https://www.researchgate.net/publication/381052556_PlaceFormer_Transformer-based_Visual_Place_Recognition_using_Multi-Scale_Patch_Selection_and_Fusion
  47. TAT-VPR: Ternary Adaptive Transformer for Dynamic and … - arXiv, accessed July 1, 2025, https://arxiv.org/pdf/2505.16447
  48. Visual Place Recognition - Papers With Code, accessed July 1, 2025, https://paperswithcode.com/task/visual-place-recognition
  49. CVPR Poster Multi-Modal Aerial-Ground Cross-View Place …, accessed July 1, 2025, https://cvpr.thecvf.com/virtual/2025/poster/32913
  50. (PDF) Place recognition survey: An update on deep learning …, accessed July 1, 2025, https://www.researchgate.net/publication/352643867_Place_recognition_survey_An_update_on_deep_learning_approaches
  51. Ghost-dil-NetVLAD: A Lightweight Neural Network for Visual Place Recognition - arXiv, accessed July 1, 2025, https://arxiv.org/html/2112.11679v2
  52. [2106.10458] Place recognition survey: An update on deep learning approaches - arXiv, accessed July 1, 2025, https://arxiv.org/abs/2106.10458
  53. Revisit Anything: Visual Place Recognition via Image Segment Retrieval - arXiv, accessed July 1, 2025, https://arxiv.org/html/2409.18049v1
  54. CultReal-A Rapid Development Platform for AR Cultural Spaces, with Fused Localization, accessed July 1, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC8513013/
  55. Design and Research for Industrial Robot Using Goods Sorting in Warehouse, accessed July 1, 2025, https://www.researchgate.net/publication/364070674_Design_and_Research_for_Industrial_Robot_Using_Goods_Sorting_in_Warehouse
  56. Enhancing Driving and Road Safety: The Role of Map-Based ADAS and Mapping - Mosaic51, accessed July 1, 2025, https://www.mosaic51.com/featured/enhancing-driving-and-road-safety-the-role-of-map-based-adas-and-mapping/
  57. Graph Neural Networks - Self-Driving Cars - Medium, accessed July 1, 2025, https://medium.com/self-driving-cars/graph-neural-networks-ad308039f00b
  58. ICRA 2025 Program Thursday May 22, 2025, accessed July 1, 2025, https://ras.papercept.net/conferences/conferences/ICRA25/program/ICRA25_ContentListWeb_3.html
  59. Toward Autonomous Localization of Planetary Robotic Explorers by Relying on Semantic Mapping, accessed July 1, 2025, https://www-robotics.jpl.nasa.gov/media/documents/Toward_Autonomous_Localization_of_Planetary_Robotic_Explorers_by_Relying_on_Se_JoTX19T.pdf
  60. [2203.13308] Verifiable Access Control for Augmented Reality Localization and Mapping, accessed July 1, 2025, https://arxiv.org/abs/2203.13308
  61. Using artificial intelligence to generate content for augmented reality - ČVUT DSpace, accessed July 1, 2025, https://dspace.cvut.cz/bitstream/handle/10467/114952/F3-DP-2024-Zizkova-Alena-Using_artificial_intelligence_to_generate_content_for_augmented_reality.pdf?sequence=-1&isAllowed=y
  62. VSLAM-LAB: A Comprehensive Framework for Visual SLAM Methods and Datasets - arXiv, accessed July 1, 2025, https://arxiv.org/html/2504.04457v1
  63. The KITTI Vision Benchmark Suite, accessed July 1, 2025, https://www.cvlibs.net/datasets/kitti/eval_odometry_detail.php?&result=ebd19480a9189befcbadae6456a17f70fd36ecae
  64. The KITTI Vision Benchmark Suite - Andreas Geiger, accessed July 1, 2025, https://www.cvlibs.net/datasets/kitti/eval_odometry.php
  65. nuScenes, accessed July 1, 2025, https://www.nuscenes.org/nuscenes?tutorial=maps
  66. nuScenes - Supervisely, accessed July 1, 2025, https://docs.supervisely.com/import-and-export/import/supported-annotation-formats/pointclouds/nuscenes
  67. Data Collection - nuScenes, accessed July 1, 2025, https://www.nuscenes.org/tutorial
  68. nuScenes devkit tutorial - Colab - Google, accessed July 1, 2025, https://colab.research.google.com/github/nutonomy/nuscenes-devkit/blob/master/python-sdk/tutorials/nuscenes_tutorial.ipynb
  69. nuScenes Map Expansion Tutorial, accessed July 1, 2025, https://www.nuscenes.org/tutorials/map_expansion_tutorial.html
  70. nuScenes prediction tutorial, accessed July 1, 2025, https://www.nuscenes.org/tutorials/prediction_tutorial.html
  71. Argoverse User Guide, accessed July 1, 2025, https://argoverse.github.io/user-guide/
  72. HD Maps - Argoverse User Guide, accessed July 1, 2025, https://argoverse.github.io/user-guide/api/hd_maps.html
  73. [Literature Review] The City that Never Settles: Simulation-based LiDAR Dataset for Long-Term Place Recognition Under Extreme Structural Changes, accessed July 1, 2025, https://www.themoonlight.io/en/review/the-city-that-never-settles-simulation-based-lidar-dataset-for-long-term-place-recognition-under-extreme-structural-changes
  74. LoCS-Net: Localizing convolutional spiking neural network for fast visual place recognition, accessed July 1, 2025, https://www.frontiersin.org/journals/neurorobotics/articles/10.3389/fnbot.2024.1490267/full
  75. Bruno Rafael Queirós Arcanjo - Research Repository, accessed July 1, 2025, https://repository.essex.ac.uk/39980/1/thesis.pdf
  76. Data Collection - nuScenes, accessed July 1, 2025, https://www.nuscenes.org/nuscenes?tutorial=prediction
  77. Appearance change prediction for long-term navigation across seasons - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/261307173_Appearance_change_prediction_for_long-term_navigation_across_seasons
  78. gmberton/EigenPlaces: Official code for ICCV 2023 paper “EigenPlaces: Training Viewpoint Robust Models for Visual Place Recognition” - GitHub, accessed July 1, 2025, https://github.com/gmberton/EigenPlaces
  79. SuperNoVA: Algorithm-Hardware Co-Design for Resource-Aware SLAM - People @EECS, accessed July 1, 2025, https://people.eecs.berkeley.edu/~ysshao/assets/papers/supernova-asplos2025.pdf
  80. General Place Recognition Survey: Towards Real-World Autonomy - arXiv, accessed July 1, 2025, https://arxiv.org/html/2405.04812v2
  81. CompSLAM: Complementary Hierarchical Multi-Modal Localization and Mapping for Robot Autonomy in Underground Environments - arXiv, accessed July 1, 2025, https://arxiv.org/html/2505.06483v1
  82. A Review of Multi-Sensor Fusion SLAM Systems Based on 3D LIDAR - MDPI, accessed July 1, 2025, https://www.mdpi.com/2072-4292/14/12/2835
  83. A Review of Multi-Sensor Fusion SLAM Systems Based on 3D LIDAR - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/361293274_A_Review_of_Multi-Sensor_Fusion_SLAM_Systems_Based_on_3D_LIDAR
  84. Camera, LiDAR, and IMU Based Multi-Sensor Fusion SLAM: A Survey - SciOpen, accessed July 1, 2025, https://www.sciopen.com/article/10.26599/TST.2023.9010010

Class-Relational Label Smoothing for Lifelong Visual Place Recognition - OpenReview, accessed July 1, 2025, https://openreview.net/forum?id=ZS1lCBLljq¬eId=EcQFhVfJVh