시맨틱 맵 매칭
로보틱스와 자율 시스템 분야에서 가장 근본적이면서도 중요한 질문은 “나는 어디에 있는가?”이다. 이 질문에 답하는 과정, 즉 에이전트(로봇, 자율주행차 등)가 주어진 기준 좌표계 내에서 자신의 자세(위치와 방향)를 결정하는 과정을 위치 인식(Localization)이라고 한다.1 이는 로봇이 의미 있는 작업을 수행하기 위한 전제 조건이며, 자율성의 핵심을 이루는 기술이다.
위치 인식 기술의 초기 발전은 주로 기하학적 특징에 의존하는 전통적인 접근법에 의해 주도되었다. 이러한 방법들은 센서 데이터를 순수한 기하학적 형태로 해석하고, 이를 기존 맵과 정합하여 위치를 추정했다. 대표적인 기법들은 다음과 같다.
- 포인트 클라우드 정합 (Point Cloud Matching): 라이다(LiDAR)와 같은 센서로부터 얻은 3D 포인트 클라우드 데이터를 활용하는 방식으로, 가장 널리 알려진 알고리즘은 반복 최근접점(Iterative Closest Point, ICP)이다. ICP는 두 포인트 클라우드 간의 대응점을 반복적으로 찾아내고, 이들 사이의 거리 오차를 최소화하는 변환(회전 및 이동)을 계산하여 두 데이터를 정렬한다.4 이 방식은 3D-2D 정합에 직접 사용되기보다는, 3D 데이터를 기반으로 한 후속 처리나 다른 정합 알고리즘과 결합될 때 유용성을 발휘한다.4
- 특징점 기반 정합 (Feature-Based Matching): 이미지나 포인트 클라우드에서 눈에 띄는 특징점을 추출하고, 이를 기술자(descriptor)로 표현하여 정합하는 방식이다. 예를 들어, 해리스 코너 검출기(Harris Corner Detector)는 이미지의 코너점을, 캐니 엣지 검출기(Canny Edge Detector)는 엣지 정보를 추출하는 데 사용된다.4 이러한 특징점들은 주변 픽셀 정보와 구별되는 고유한 패턴을 가지므로, 서로 다른 시간이나 시점에서 촬영된 데이터 간의 대응 관계를 찾는 데 효과적이다.
- 강건한 추정 (Robust Estimation): 실제 환경에서는 센서 노이즈나 잘못된 특징점 매칭으로 인해 다수의 이상치(outlier)가 발생한다. 이러한 이상치가 위치 추정의 정확도를 심각하게 저해할 수 있기 때문에, 이에 강건한 추정 기법이 필수적이다. 대표적으로 RANSAC(Random Sample Consensus) 알고리즘은 전체 데이터에서 무작위로 일부 샘플을 추출하여 모델을 추정하고, 이 모델을 지지하는 정상치(inlier)의 수가 가장 많은 모델을 최종 결과로 선택한다.4 이 과정을 통해 특징 매칭 과정에서 발생할 수 있는 오류를 최소화하고, 신뢰도 높은 변환을 추정할 수 있다.
하지만 순수한 기하학적 접근법은 명백한 한계를 지닌다. 이러한 방법들은 환경이 대부분 정적이라는 암묵적인 가정 하에 설계되었기 때문에, 현실 세계의 복잡성과 동역학성에 직면했을 때 취약점을 드러낸다. 예를 들어, 초기 자세 오차가 크거나 센서 측정치 간의 중첩 영역이 적을 경우 정합에 실패하기 쉽다.5 또한, 터널과 같이 기하학적 특징이 부족하고 반복적인 구조를 가진 환경에서는 위치를 특정하기 어렵다.6 가장 치명적인 약점은 동적 객체(dynamic objects)에 대한 처리 능력이다. 보행자, 다른 차량 등 움직이는 객체들은 기하학적 방법론에서 단순한 노이즈나 이상치로 간주되어 위치 추정의 정확도를 심각하게 저하시키는 주요 원인이 된다.1
기하학적 접근법의 본질적인 한계는 ‘정적 세계 가정(static world assumption)’의 실패에서 비롯된다. 초기 로보틱스 연구는 통제된 정적 환경에서 이루어졌으며, 이곳에서는 기하학적 방법만으로도 충분했다. 그러나 자율주행차나 서비스 로봇처럼 인간 중심의 복잡하고 동적인 환경으로 연구 무대가 옮겨가면서, 동적 객체 문제는 기술 발전의 주요 병목 현상으로 대두되었다.1 기존 시스템은 움직이는 객체들을 이상치로 간주하고 RANSAC과 같은 알고리즘으로 제거하려 했지만 4, 도심처럼 환경의 대부분이 동적일 수 있는 상황에서는 이러한 접근이 더 이상 유효하지 않았다.
이러한 배경 속에서 딥러닝 기반의 객체 탐지 및 분할 기술의 등장은 새로운 해법을 제시했다.9 단순히 이해할 수 없는 데이터를 ‘거부’하는 대신, 시스템이 동적 객체를 능동적으로 ‘인식’하고 ‘분류’할 수 있게 된 것이다. 이는 위치 인식 패러다임의 근본적인 전환을 의미했다. 즉, ‘움직이는 것을 이해하고 무시하는’ 능동적 프로세스가 ‘세계는 정적’이라는 취약한 가정을 대체하게 된 것이다. 이것이 바로 시맨틱(semantic), 즉 의미론적 정보가 위치 인식에 도입된 핵심적인 이유다.
시맨틱 접근법은 단순히 점과 선을 보는 것을 넘어, 시스템이 환경 내의 객체를 인식하고 “자동차”, “건물”, “신호등”과 같은 의미론적 레이블을 부여하는 것을 의미한다. 이는 기하학적 정보에 인지적 맥락을 더하여, 로봇이 환경을 보다 깊이 있게 이해하도록 돕는다.10
이러한 이해를 바탕으로 구축되는 것이 시맨틱 맵(Semantic Map)이다. 시맨틱 맵은 기하학적 정보와 의미론적 정보를 결합한 환경의 표현 방식이다.11 단순한 점유 격자 맵(occupancy grid map)을 넘어, 인간이 이해하기 쉬운 풍부한 모델을 제공한다.13 시맨틱 맵은 다양한 형태로 표현될 수 있다.
- 객체 수준 맵 (Object-Level Map): 맵이 위치, 방향, 카테고리 등의 속성을 가진 개별적인 객체들로 구성된다.9 예를 들어, 맵은 ‘의자_1’, ‘책상_A’와 같은 식별 가능한 랜드마크의 집합으로 표현된다.
- 위상 맵 (Topological Map): 환경을 그래프 구조로 표현하며, 노드(node)는 장소(예: 방, 교차로)를, 엣지(edge)는 장소 간의 연결성을 나타낸다.11 이는 추상화된 경로 계획에 매우 유용하다.
- 다층 HD 맵 (Multi-Layered HD Map): 자율주행 산업에서 널리 사용되는 형태로, 라이다로 생성된 정밀한 3D 기하 정보 위에 차선, 주행 가능 영역, 신호등 위치와 같은 여러 의미론적 레이어를 중첩시킨 맵이다.16
시맨틱 정보를 활용함으로써 얻는 핵심적인 이점은 다음과 같다.
- 동적 환경에서의 강건성 (Robustness): 시스템이 객체를 식별하고 분류함으로써 정적 랜드마크(건물, 전봇대)와 동적 요소(차량, 보행자)를 명확히 구분할 수 있다. 위치 추정 과정에서 동적 요소의 영향을 배제함으로써, 기하학적 방법의 주된 실패 원인을 근본적으로 해결한다.1
- 데이터 연관성 향상 (Improved Data Association): 정합(matching)이 모호한 저수준 특징점이 아닌, “저 신호등”과 “지도상의 저 신호등”처럼 고수준의 객체 단위로 이루어진다. 이는 특히 SLAM(Simultaneous Localization and Mapping)의 루프 클로저(loop closure) 감지 시 훨씬 더 강건하고 신뢰성 있는 데이터 연관성을 제공한다.18
- 고수준 작업 지원 (Enabling Higher-Level Tasks): 시맨틱 맵은 단순한 주행을 넘어선 지능적인 행동을 가능하게 한다. 예를 들어, “테이블 위의 컵을 가져와”와 같은 인간-로봇 상호작용, “보도를 피해서 주행해”와 같은 맥락 인지적 경로 계획 및 의사결정을 지원한다.5
이러한 시맨틱 기술의 발전은 대규모 데이터셋의 등장과 밀접한 관련이 있다. 딥러닝 모델, 특히 객체 탐지나 분할 모델은 방대한 양의 레이블링된 데이터를 필요로 한다. KITTI와 같은 초기 데이터셋은 획기적이었지만, 주석의 밀도가 상대적으로 낮아 훈련시킬 수 있는 시맨틱 모델의 복잡성에 한계가 있었다.22 이후 360도 센서와 KITTI보다 7배 많은 객체 주석을 제공하는 nuScenes 데이터셋의 등장은 다중 모드 인식 시스템 훈련에 필요한 데이터를 공급하며 전환점을 마련했다.24 또한, Argoverse 데이터셋은 풍부한 벡터 기반 시맨틱 레이어를 포함한 HD 맵 자체에 중점을 두어 맵 기반 위치 인식 및 예측 연구를 직접적으로 촉진했다.16 이처럼 더 나은 데이터의 가용성은 더 강력한 시맨틱 알고리즘의 개발을 가능하게 하고, 역으로 더 강건한 시맨틱 위치 인식에 대한 요구는 더 크고 상세한 데이터셋의 구축을 견인하는 선순환 구조를 형성했다. Argoverse 1에서 더 풍부한 맵을 제공하는 Argoverse 2로의 발전이 그 대표적인 예이다.16
시맨틱 맵 매칭 기술은 주로 SLAM과 시각적 장소 인식(Visual Place Recognition, VPR)이라는 두 가지 큰 틀 안에서 발전하고 적용된다.
- 시맨틱 SLAM (Semantic SLAM): 미지의 환경에서 시맨틱 맵을 동시에 구축하면서 그 안에서 자신의 위치를 추정하는 과정이다.1 딥러닝을 통해 추출된 시맨틱 정보는 SLAM 백엔드 최적화 과정에서 강건한 제약 조건(constraint)으로 활용된다.9 시맨틱 SLAM의 최종 목표는 처음부터 전역적으로 일관되고 의미론적으로 풍부한 맵을 생성하는 것이다.
- 시각적 장소 인식 (Visual Place Recognition, VPR): VPR은 종종 이미지 검색 문제로 정의된다.29 현재 보고 있는 장소의 이미지(쿼리 이미지)가 주어졌을 때, 미리 구축된 대규모의 지리 정보 태깅된 데이터베이스에서 가장 유사한 이미지를 찾는 것이 목표다. 이는 로봇이 길을 잃었을 때 자신의 위치를 다시 찾거나(re-localization), SLAM에서 루프 클로저를 감지하는 데 필수적인 거친 위치(coarse localization) 정보를 제공한다.29 시맨틱 정보는 특히 조명이나 계절 변화와 같은 어려운 조건에서 VPR의 성능을 극적으로 향상시킨다.34
결론적으로, 딥러닝 기반 시맨틱 맵 매칭은 단순한 기하학적 정합의 한계를 극복하고, 로봇이 동적인 현실 세계를 이해하고 상호작용할 수 있도록 하는 핵심 기술로 자리 잡았다. 이는 단순한 기술적 향상을 넘어, 자율 시스템이 진정한 지능을 갖추기 위한 필수적인 패러다임 전환이라 할 수 있다.
시맨틱 위치 인식의 성공은 다양한 딥러닝 아키텍처의 발전과 밀접하게 연관되어 있다. 이 파트에서는 시맨틱 파이프라인의 각 하위 작업을 수행하는 데 사용되는 핵심 딥러닝 모델들을 심층적으로 분석한다. 각 모델군이 어떤 역할을 하는지뿐만 아니라, 그들의 구조적 특성이 왜 특정 작업에 적합한지를 해부한다.
합성곱 신경망(Convolutional Neural Networks, CNNs)은 2D 이미지나 라이다의 거리 이미지(range image)와 같이 격자 구조를 가진 데이터를 처리하는 데 있어 가장 기본적이면서도 강력한 도구다. CNN의 계층적 구조는 이미지의 공간적 특징을 효과적으로 학습하며, 단순한 엣지나 질감에서부터 복잡한 객체의 부분에 이르기까지 특징의 위계를 형성한다.35
- 장소 인식을 위한 특징 추출: ImageNet과 같은 대규모 데이터셋으로 사전 훈련된 CNN의 중간 레이어는 강력하고 일반적인 특징 추출기로 작동한다. 이 특징들은 SIFT나 SURF와 같은 수동으로 설계된 특징(handcrafted features)보다 조명 변화나 사소한 외형 변화에 훨씬 강건하다.35 초기 VPR 연구들은 사전 훈련된 CNN의 활성화 값(activation)을 이미지 기술자(descriptor)로 사용하는 것만으로도 기존 방법을 크게 능가하는 성능을 보였다.35
- 시맨틱 분할 (Semantic Segmentation): U-Net 1이나 DeepLab 1과 같은 인코더-디코더 구조의 CNN 아키텍처는 이미지 내 모든 픽셀에 “도로”, “하늘”, “건물”과 같은 시맨틱 레이블을 할당한다. 이는 씬(scene)에 대한 조밀한 픽셀 수준의 이해를 제공하며, 주행 가능 영역이나 정적인 배경 영역을 식별하는 데 매우 중요하다.13
- 객체 탐지 (Object Detection): YOLO, SSD와 같은 1단계(one-stage) 검출기나 Faster R-CNN과 같은 2단계(two-stage) 검출기는 이미지 내 객체 주위에 경계 상자(bounding box)를 그리고 이를 분류하는 데 사용된다.9 이는 객체 수준 시맨틱 SLAM의 초석으로, 맵에서 랜드마크로 사용될 개별 객체들을 제공한다.9
샴 네트워크(Siamese Network)는 동일한 가중치를 공유하는 두 개 이상의 동일한 하위 네트워크로 구성된 아키텍처다.37 이 네트워크의 목표는 입력을 분류하는 것이 아니라, 입력 데이터(예: 이미지)를 특징 공간(feature space)으로 매핑하는 임베딩 함수를 학습하는 것이다. 이 특징 공간에서는 의미론적 유사도가 임베딩 간의 거리로 표현된다.40
- 작동 메커니즘:
- 두 개의 이미지가 각각의 트윈 네트워크에 입력된다.
- 각 네트워크는 이미지에 대한 특징 벡터(임베딩)를 생성한다.
- 두 임베딩 벡터 간의 거리(예: 유클리드 거리)가 계산된다.
- 대조 손실 함수(contrastive loss function)는 유사한 쌍의 임베딩은 가깝게 만들고, 상이한 쌍의 임베딩은 멀리 떨어지도록 네트워크를 학습시킨다.39
- 위치 인식에서의 응용: 샴 네트워크는 본질적으로 매칭 및 검증 작업에 매우 적합하다. 카메라 위치 추정 문제에서, 샴 네트워크는 쿼리 이미지와 데이터베이스 이미지 간의 상대적 자세를 추정하도록 훈련될 수 있다.42 객체 추적에서는 현재 프레임의 객체가 이전 프레임의 객체와 동일한지 판단하는 데 사용된다.37 VPR에서는 같은 장소의 이미지가 서로 다른 조건(예: 계절, 조명)에서 촬영되었더라도 유사한 임베딩을 생성하도록 학습된다.
제한된 수용장(receptive field)을 갖는 CNN과 달리, 트랜스포머(Transformer)의 셀프 어텐션(self-attention) 메커니즘은 시퀀스 내의 모든 요소(예: 모든 이미지 패치)가 다른 모든 요소에 주의를 기울일 수 있게 한다.43 이는 모델이 장거리 의존성(long-range dependency)과 전역적 컨텍스트를 포착할 수 있도록 하는 핵심적인 장점이다.
- 비전 트랜스포머 (Vision Transformer, ViT): ViT는 이미지를 여러 개의 패치(patch)로 분할하고 이를 시퀀스로 만들어 트랜스포머에 입력함으로써, 트랜스포머를 이미지 작업에 적용한 모델이다.43
- VPR에서의 역할: 트랜스포머는 VPR 분야에서 최신 기술(state-of-the-art)로 부상하고 있다.
- 트랜스포머는 씬의 멀리 떨어진 부분들 간의 공간적 관계를 추론할 수 있기 때문에, 큰 시점 변화를 더 잘 처리할 수 있다.46
- PlaceFormer와 같은 모델은 ViT에서 추출한 패치 토큰을 사용하여 전역 기술자를 생성한다. 이 모델의 셀프 어텐션 메커니즘은 명시적으로 가장 중요한 패치(예: 안정적인 건물)를 선택하고 방해 요소(예: 움직이는 자동차, 구름)는 무시하는 데 사용되며, 선택된 패치들은 더 강건한 기하학적 검증 단계에 활용된다.46
- TAT-VPR과 같은 최근 연구는 삼진 양자화(ternary quantization)나 지식 증류(knowledge distillation)와 같은 기술을 통해 이러한 대규모 트랜스포머 모델을 기기 내 SLAM(on-device SLAM)에 효율적으로 적용하는 데 초점을 맞추고 있다.47
CNN은 풍부한 지역적 특징 맵(local feature map)을 생성한다. 효율적인 이미지 검색(VPR의 핵심)을 위해서는 이 수많은 지역적 특징들을 하나의 간결한 전역 기술자 벡터(global descriptor vector)로 집계(aggregate)해야 한다.48 이 과정은 여러 단계를 거쳐 발전해왔으며, 이는 특징 공학에서 종단간 표현 학습으로의 명확한 전환 궤적을 보여준다.
-
초기 단계 (사전 딥러닝): 초기에는 SIFT와 같은 수동 설계 특징과 BoW(Bag-of-Visual-Words)나 VLAD(Vector of Locally Aggregated Descriptors)와 같은 수동 집계 방식을 사용했다.36 BoW는 지역 특징을 ‘시각적 단어’의 히스토그램으로 양자화하는 반면, VLAD는 특징과 할당된 클러스터 중심 간의 잔차(residual)를 합산하여 더 많은 정보를 보존했다.36
-
초기 딥러닝 도입: 다음 단계에서는 CNN 활성화 값과 같은 학습된 특징을 사용했지만, 집계 방식은 여전히 합(sum) 또는 최대 풀링(max pooling)이나 기존 VLAD와 같이 고정되어 있었다.35 특징 추출은 학습되었지만, 집계는 여전히 수동이었다.
-
종단간 CNN (NetVLAD): 이 흐름의 정점은 NetVLAD의 등장이었다. NetVLAD는 VLAD 집계 과정을 CNN 내에서 미분 가능한 레이어로 구현한 획기적인 연구다.48 이로써 특징 추출부터 전역 기술자 생성까지 전체 파이프라인을 장소 인식 작업에 맞게 종단간(end-to-end)으로 훈련할 수 있게 되었다. NetVLAD는 수많은 지도 학습 기반 VPR 방법론의 기초가 되었다.50
-
최신 발전: NetVLAD 이후에도 Patch-NetVLAD는 여러 스케일의 패치에 VLAD를 적용하고 그 결과를 융합하여 강건성을 높였고 48,
SegVLAD는 시맨틱 분할을 먼저 수행한 후 분할된 영역 단위로 기술자를 계산하고 집계함으로써 고수준의 시맨틱 정보를 집계 과정에 명시적으로 통합했다.53
-
종단간 트랜스포머: 현재 최신 기술은 CNN 백본 자체를 전역적 관계를 학습하는 ViT로 대체하고, 그 출력 토큰을 집계하는 방식이다. 이는 훨씬 더 강력하고 맥락을 인지하는 표현을 종단간으로 학습하는 것을 의미한다.46
이러한 발전 과정은 미래의 혁신이 개별 모듈의 개선보다는, 인식, 표현, 매칭을 공동으로 학습하는 새로운 종단간 아키텍처에서 나올 가능성이 높다는 것을 시사한다.
또한, 이 툴킷들은 두 가지 상반된 철학을 반영한다. CNN 기반 분할/탐지는 씬에 ‘무엇(what)’이 있는지를 식별하는 데 중점을 둔다. 반면, 샴 네트워크나 VPR 중심 아키텍처(NetVLAD, 트랜스포머)는 그 장소가 ‘어디(where)’인지를 나타내는 고유한 시각적 시그니처를 학습하는 데 집중한다. 객체 탐지기는 “자동차, 사람, 건물이 있다”고 말해주며 9, 이는 시맨틱 SLAM에서 이 객체들이 랜드마크가 되는 데 결정적이다. VPR 모델은 전체 이미지를 보고 “이곳은 장소 #472”라는 단일 벡터를 생성한다.50 가장 진보된 시스템은 이 두 가지를 결합한다. 예를 들어, SegVLAD는 먼저 분할을 통해 씬에 ‘무엇’이 있는지 이해한 다음, 이 정보를 사용하여 ‘어디’에 대한 더 나은 기술자를 구축한다.53 시맨틱 SLAM은 객체 탐지(‘무엇’)를 사용하여 백엔드에서 강건한 데이터 연관성(‘어디’)을 생성한다.19 이는 ‘장소’에 대한 전체적인 이해를 구성 ‘객체’의 견고한 식별에 기반을 두는 하이브리드 모델이 미래의 방향임을 암시한다.
이 파트에서는 개별 딥러닝 모듈에서 완전한 시스템으로 논의를 전환한다. 딥러닝 모듈들이 어떻게 기능적인 SLAM 및 위치 인식 프레임워크에 통합되는지 분석하고, 주요 실제 응용 분야에서의 배포 사례를 탐구하며, 실질적인 영향과 엔지니어링 과제를 조명한다.
시맨틱 SLAM은 전통적인 SLAM 파이프라인에 파트 2에서 논의된 시맨틱 추출 모듈을 통합한 것이다.9 SLAM 파이프라인은 일반적으로 프론트엔드(추적/주행 거리계)와 백엔드(맵핑/최적화)로 구성된다.
- 프론트엔드 강화: 시맨틱 정보는 동적 특징점을 걸러냄으로써 프론트엔드를 돕는다. 예를 들어, 움직이는 차량에서 감지된 특징점들을 무시함으로써 프레임 간의 움직임 추정(시각적 주행 거리계, Visual Odometry)의 정확도를 높일 수 있다.1
- 백엔드 혁신 (데이터 연관성): 시맨틱 정보의 가장 큰 영향은 백엔드, 특히 데이터 연관성(data association)과 루프 클로저 감지에서 나타난다.
- 고전적 SLAM: 저수준의 기하학적 특징 매칭에 의존하여, 서로 다른 장소가 시각적으로 유사해 보이는 인식적 모호성(perceptual aliasing) 문제에 취약하다.
- 시맨틱 SLAM: 고수준의 객체를 연관시킬 수 있다. 시스템은 “의자_1”, “책상_1” 등을 나타내는 랜드마크를 생성할 수 있다. 나중에 “의자_1”을 다시 관찰했을 때, 이는 포즈 그래프(pose graph)에서 훨씬 강력하고 신뢰할 수 있는 루프 클로저 제약 조건을 생성한다.2
- 최적화: 종종 팩터 그래프(factor graph)로 구현되는 백엔드는 로봇의 자세, 기하학적 맵, 그리고 랜드마크의 시맨틱 레이블을 공동으로 최적화하여 전역적으로 일관된 시맨틱 맵을 생성할 수 있다.19 최근에는 파운데이션 모델(foundation model)을 사용하여 이러한 랜드마크에 대해 더 풍부하고 개방형 어휘(open-vocabulary) 레이블을 생성함으로써, 단순한 폐쇄형 집합(closed-set) 카테고리를 넘어서고 있다.2
- 대표 시스템: 많은 최신 SLAM 시스템들은 ORB-SLAM2 1와 같은 강력한 오픈소스 프레임워크를 기반으로 하며, 여기에 객체 탐지나 분할을 위한 시맨틱 스레드를 병렬로 실행하는 방식으로 기능을 증강한다.
자율주행 분야는 시맨틱 맵 매칭 기술이 가장 활발하게 적용되는 영역 중 하나이며, 이는 두 가지 주요 패러다임, 즉 ‘실시간 SLAM’과 ‘사전 구축 HD 맵’의 차이를 명확히 보여준다. 로보틱스나 증강현실(AR) 분야에서는 환경이 미지이거나 예측 불가능하게 변할 수 있으므로 SLAM을 통해 실시간으로 맵을 구축하는 경우가 많다.54 반면, 안전이 최우선인 자율주행 산업은 수천 시간 동안의 주행 데이터를 통해 검증된, 정밀하게 제작된 사전 구축 HD 맵을 기반으로 하는 접근법으로 수렴했다.17
- HD 맵: 자율주행차의 “세계 지도”: 웨이모(Waymo), 크루즈(Cruise)와 같은 선도 기업들은 센티미터 수준의 정밀도를 가진, 사전에 구축된 시맨틱 HD 맵에 크게 의존한다.17 이 맵은 정적이고 신뢰할 수 있는 ‘진실의 원천(source of truth)’으로 기능한다.
- 매칭을 통한 위치 인식: 자율주행차는 주로 라이다 센서를 사용하여 주변 환경을 인식하고, 이 실시간 센서 데이터를 HD 맵과 정합하여 자신의 정확한 위치와 방향(자세)을 결정한다.17 이 방식은 고층 빌딩이 위성 신호를 가리는 “도시 협곡(urban canyon)”과 같은 GPS 음영 지역에서도 강건한 위치 인식을 가능하게 한다.17
- 안전 및 계획을 위한 시맨틱 정보: 맵의 시맨틱 레이어(차선 표시, 신호등, 횡단보도, 주행 가능 영역 등)는 단순히 위치 인식을 위한 것이 아니라, 예측 및 계획 모듈의 핵심 입력으로 사용된다.16 차량은 맵 정보를 통해 자신이 회전 차선에 있거나 횡단보도에 접근하고 있음을 인지하고 그에 맞는 주행 계획을 수립한다.
- 맵 업데이트의 과제: 이 접근법의 가장 큰 엔지니어링 과제는 공사 현장과 같은 실제 세계의 변화를 HD 맵에 지속적으로 반영하는 것이다.17 이를 위해서는 차량 플릿(fleet)을 기반으로 한 정교한 변화 감지 및 맵 업데이트 파이프라인이 필수적이다.
미래에는 이 두 패러다임이 융합될 가능성이 높다. 자율주행차는 HD 맵에 의존하면서도, 맵에 아직 반영되지 않은 변화를 감지하고 적응하기 위해 “생애주기 SLAM(lifelong SLAM)” 기능을 필요로 할 것이다. 반대로, 서비스 로봇은 건물의 기본 맵을 다운로드한 후 SLAM을 사용하여 이를 정교화하고 지역적 변화에 적응하는 형태가 될 수 있다.
시맨틱 맵은 자율주행을 넘어 다양한 로봇 및 AR 응용 분야에서 지능적인 행동을 가능하게 하는 핵심 요소이다. 시맨틱 정보는 저수준의 상태 추정 및 제어 루프와 고수준의 작업 계획 및 의사결정 두뇌를 연결하는 다리 역할을 한다. 순수한 기하학적 맵은 로봇에게 (x, y, θ) 좌표와 장애물 위치를 알려주어 기본적인 경로 계획을 가능하게 하지만, 시맨틱 맵은 로봇에게 현재 위치가 부엌이며 냉장고 옆이라는 맥락을 제공한다. 이러한 맥락은 “음료수 가져와”와 같은 추상적인 명령을 “부엌으로 이동 -> 냉장고 찾기 -> 냉장고 열기 -> 음료수 잡기”와 같은 구체적인 계획으로 변환할 수 있게 한다.21
- 창고 및 물류 로봇: 시맨틱 맵은 로봇이 단순히 A 지점에서 B 지점으로 이동하는 것을 넘어, “로딩 베이로 가라” 또는 “C7 선반을 찾아라”와 같은 복잡한 작업을 수행할 수 있도록 한다. 이는 맵이 이러한 시맨틱 개념을 이해해야만 가능하다.55
- 행성 탐사 및 비정형 환경: 화성 탐사 로버나 다른 GPS 음영 환경에서는 탑재된 카메라 이미지(예: 지평선, 지형 특징)를 궤도 맵(디지털 고도 모델)과 정합하여 위치를 추정한다. 이때 시맨틱 정보는 안정적이고 고유한 특징을 식별하여 강건한 매칭을 돕는다.59
- 증강현실 (AR): AR은 가상 콘텐츠를 현실 세계에 고정시키기 위해 정밀하고 지속적인 위치 인식을 필요로 한다. 시맨틱 맵은 이를 위한 핵심 기술이다.
- 여러 사용자와 세션 간에 공유되는 지속적인 좌표계를 제공한다.54
- 가상 콘텐츠가 실제 객체와 상호작용하는 맥락 인지적 AR을 가능하게 한다(예: 가상 캐릭터가 실제 의자에 앉는 것).60
- 위치 인식은 종종 스마트폰 카메라 이미지에서 추출한 시각적 특징(예: SIFT)을 공간의 사전 구축된 맵과 매칭하여 이루어지며, 시맨틱 정보는 강건성과 맥락을 제공한다.54 시각 위치 결정 시스템(Visual Positioning System, VPS)이 이 분야의 핵심 기술이다.61
결론적으로, 시맨틱 위치 인식은 단순한 위치 추정 기술의 개선이 아니라, 로봇이 단순한 ‘이동체’에서 복잡하고 맥락에 의존적인 작업을 이해하고 수행할 수 있는 ‘지능형 에이전트’로 진화하는 데 필요한 기반 기술이다.
이 마지막 파트에서는 기술 발전을 측정하는 데 사용되는 도구, 연구자들이 직면한 주요 미해결 문제, 그리고 이 분야의 미래를 정의할 새로운 트렌드를 종합적으로 살펴본다.
표준화된 데이터셋과 평가 지표는 다양한 방법론 간의 공정한 비교를 가능하게 하고, 연구 개발을 촉진하는 데 필수적이다.62
- 주요 데이터셋:
- KITTI: 자율주행 연구의 선구적인 데이터셋으로, 스테레오 이미지, 라이다, GPS/IMU 데이터를 포함하며 주행 거리계, 객체 탐지, 추적 등의 벤치마크를 제공한다.22 주행 거리계 벤치마크는 다양한 경로 길이에 대해 이동 오차(%)와 회전 오차(deg/m)를 평가한다.63
- nuScenes: 360도 전체를 커버하는 센서 제품군(카메라 6대, 레이더 5대, 라이다 1대), 조밀한 3D 객체 주석, 그리고 주행 가능 영역과 보도 같은 맵 레이어를 제공하여 복잡성을 한 단계 끌어올렸다.24 이는 조밀한 도심 환경에서의 다중 모드 융합 및 인식 연구를 촉진했다. 개발자 킷(devkit)은 맵 레이어와 센서 데이터에 접근하기 위한 풍부한 API를 제공한다.66
- Argoverse (1 & 2): HD 맵에 대한 강력한 강조로 차별화된다. 특히 Argoverse 2는 차선 경계 유형, 횡단보도, 주행 가능 영역 다각형과 같은 상세한 시맨틱 속성을 포함하는 풍부한 벡터 맵을 시나리오별로 제공하며, 전용 API를 통해 접근할 수 있다.16 이는 맵 기반 예측 및 위치 인식 연구에 큰 자극이 되었다.
- 주요 평가 지표:
- 위치 인식/주행 거리계: 절대 궤적 오차(Absolute Trajectory Error, ATE)와 상대 자세 오차(Relative Pose Error, RPE)는 SLAM의 표준 평가 지표다.1 KITTI 주행 거리계 벤치마크는 정해진 거리에 대한 평균 이동 및 회전 오차를 사용한다.64
- 시각적 장소 인식 (VPR): 주요 지표는 Recall@N (R@N)이다. 이는 쿼리 이미지에 대해 올바른 데이터베이스 이미지가 상위 N개의 검색 후보 내에 포함된 비율을 측정한다.73 R@1이 가장 엄격하고 일반적으로 보고되는 지표다. 정밀도-재현율(Precision-Recall) 곡선과 곡선 아래 면적(Area Under the Curve, AUC) 또한 널리 사용된다.31
다음 표는 시맨틱 위치 인식 연구에 있어 주요 자율주행 데이터셋의 핵심적인 차이점과 진화 과정을 요약한 것이다. 이는 특정 알고리즘이 각 데이터셋이 제시하는 도전과 기회에 대응하여 어떻게 개발되었는지 맥락을 파악하는 데 도움을 준다.
| 특성 |
KITTI |
nuScenes |
Argoverse 2 |
| 주요 센서 |
전방 스테레오 카메라, 64채널 라이다 22 |
360도 카메라 (6대), 레이더 (5대), 32채널 라이다 24 |
360도 링 카메라 + 스테레오, 64채널 라이다 16 |
| 맵 데이터 |
원시 데이터 및 캘리브레이션 정보 제공 23 |
비트맵 맵 레이어 (주행 가능 영역, 보도), 라이다 기반 맵 65 |
시나리오별 벡터 맵 (차선 기하, 경계 유형, 횡단보도 등) 16 |
| 시맨틱 주석 |
희소한 3D 경계 상자 23 |
23개 클래스에 대한 조밀한 3D 경계 상자 및 속성 정보 25 |
30개 클래스에 대한 조밀한 3D 경계 상자 16 |
| 주요 벤치마크 |
주행 거리계, 3D 객체 탐지 23 |
3D 탐지, 추적, 예측, 라이다 분할 76 |
동선 예측, 3D 탐지, 맵 변화 감지 16 |
딥러닝 기반 시맨틱 매칭은 큰 발전을 이루었지만, 실제 세계의 가혹한 조건에서는 여전히 해결해야 할 과제들이 남아있다.
- 외형 변화 (Appearance Variance): 장소의 시각적 외형은 조명(낮/밤), 날씨, 계절(여름/겨울)에 따라 극적으로 변할 수 있으며, 이는 VPR에 있어 가장 큰 난제 중 하나로 남아있다.31 시맨틱 정보가 도움을 주기는 하지만(건물은 여전히 건물이지만), 질감과 색상은 크게 변한다.
- 시점 불변성 (Viewpoint Invariance): 동일한 장소를 매우 다른 카메라 자세에서 인식하는 것은 매우 어렵다. 보이는 이미지 내용의 중첩이 적을 수 있기 때문이다.34 이는 최근 VPR 연구의 핵심 초점이며, EigenPlaces와 같은 방법은 다중 시점 샘플로 모델을 명시적으로 훈련시킨다.78
- 인식적 모호성 (Perceptual Aliasing): 서로 다른 장소가 시각적으로 유사하게 보이는 문제(예: 사무실 건물의 동일한 복도, 비슷하게 생긴 거리)이다. 이는 위치 인식 시스템을 쉽게 혼동시키고 잘못된 루프 클로저를 유발할 수 있다.34
- 확장성 및 효율성: 최대의 정확도를 위해 크고 강력한 모델(트랜스포머, 파운데이션 모델)을 사용하려는 욕구와, 자원이 제한된 하드웨어(예: 로봇의 임베디드 GPU)에서 실시간 성능을 달성해야 하는 필요성 사이에는 근본적인 긴장 관계가 존재한다.12 이는 VSLAM-LAB 62과 같은 최근의 엔지니어링 중심 연구의 주요 관심사이다.
이 분야의 연구는 이제 단일 세션 작동을 넘어, 로봇이 장기간(수 주, 수개월, 수년)에 걸쳐 작동하며 지속적으로 맵을 업데이트하고 환경 변화에 적응하는 ‘생애주기(lifelong)’ 자율성으로 나아가고 있다. 이는 정확도 중심의 전통적인 SLAM을 넘어 적응성과 학습을 우선시하는 “SLAM 2.0” 시대를 예고한다.80 이러한 미래를 이끌어갈 핵심 트렌드는 다음과 같다.
- 파운데이션 모델의 영향: 대규모로 사전 훈련된 비전-언어 모델(VLM)과 개방형 어휘 검출기의 등장은 시맨틱 이해의 방식을 바꾸고 있다. 시스템은 더 이상 20~30개의 고정된 클래스에 얽매이지 않고, 자연어로 기술되는 훨씬 더 넓고 미묘한 범위의 시맨틱 개념을 이해할 수 있다.2 이는 “빨간 의자”와 “파란 의자”를 구별하는 등 더 정밀한 데이터 연관성을 가능하게 하고, 더 복잡한 언어 기반 인간-로봇 상호작용을 지원한다.58 초기 시맨틱 SLAM이 ‘의자’라는 범주 레이블을 사용했다면, 이제는 “바퀴 달린 빨간 사무용 의자”와 같이 훨씬 서술적인 레이블을 생성할 수 있게 되었다. 이는 유사 객체를 구별하는 데 결정적이다.2 더 나아가, VLM을 사용하여 “나무 책상 ‘아래에’ 있는 ‘빨간 의자’“와 같이 객체 간의 관계를 포착하는 씬 그래프를 생성하는 연구도 진행 중이다.58 이는 로봇이 단순히 장애물을 피하는 것을 넘어, “책상 아래로 의자를 밀어 넣어”와 같은 명령을 수행할 수 있게 함을 의미한다. 시맨틱의 정의가 ‘범주 레이블’에서 ‘맥락적 지식’으로 확장되고 있는 것이다.
- 심층 다중 모드 융합 (Deeper Multi-Modal Fusion): 미래는 다중 모드다. 연구는 가용한 모든 센서 데이터-카메라(가시광선 및 열화상), 라이다, 레이더, IMU-를 긴밀하게 결합하여 단일 양식의 실패에 강건한 시스템을 만드는 데 점점 더 집중하고 있다.6 예를 들어, 카메라는 어둠 속에서 실패하지만 풍부한 시맨틱 정보를 제공하고, 라이다와 레이더는 그 반대의 특성을 가진다. 이들을 상호 보완적으로 융합하는 것이 핵심이다.6
- 암시적 표현 (Implicit Representations): 뉴럴 래디언스 필드(NeRFs)와 3D 가우시안 스플래팅(3D Gaussian Splatting)과 같은 관련 방법들은 씬을 표현하는 강력한 방식으로 부상하고 있다. 최근 SLAM 연구는 이러한 암시적 모델을 맵 표현으로 사용하여, 사진처럼 사실적인 외형과 상세한 기하학을 포착하려 시도하고 있다.12 현재의 주된 과제는 높은 계산 비용이다.12
이 분야의 연구는 두 갈래로 나뉘는 경향을 보인다. 하나는 벤치마크에서 최고의 점수를 달성하기 위해 계산 비용에 상관없이 거대한 모델을 제안하는 ‘정확도 지상주의’ 연구이다.47 다른 하나는 양자화, 가지치기, 하드웨어 공동 설계 등을 통해 이러한 고급 기능을 실제 로봇에 적용 가능하게 만드는 ‘배포를 위한 효율성’ 중심의 엔지니어링 연구이다.47 미래의 발전은 이 두 연구 흐름의 상호작용 속에서 이루어질 것이다. 클라우드 규모의 인식 모델(오프라인 맵 생성이나 훈련에 사용)과, 엣지 디바이스에서의 실시간 추론을 위한 고도로 최적화된 모델이 병렬적으로 개발될 것이다. 지식 증류 기술은 전자의 능력을 후자로 이전하는 데 있어 점점 더 중요한 역할을 하게 될 것이다.47
딥러닝 기반 시맨틱 맵 매칭은 로봇과 자율 시스템의 위치 인식 패러다임을 근본적으로 변화시켰다. 순수한 기하학적 특징에 의존하던 초기 방법론의 한계, 특히 동적 환경에서의 취약성을 극복하기 위해 등장한 시맨틱 접근법은 이제 자율성의 핵심 기술로 자리 잡았다. CNN, 트랜스포머, 샴 네트워크와 같은 딥러닝 모델들은 환경 내 객체를 인식하고, 씬의 전역적 맥락을 이해하며, 장소 간의 유사성을 학습하는 강력한 도구를 제공했다.
자율주행 분야에서는 사전 구축된 고정밀 시맨틱 HD 맵을 이용한 위치 인식이 표준으로 자리 잡았으며, 이는 안전성과 신뢰성을 극대화하는 전략이다. 반면, 로보틱스와 AR 분야에서는 미지의 환경에 대한 적응성을 위해 실시간으로 맵을 생성하고 업데이트하는 시맨틱 SLAM 기술이 핵심적인 역할을 한다.
현재 이 분야는 외형 및 시점 변화, 인식적 모호성, 그리고 대규모 모델의 효율성 문제와 같은 지속적인 과제에 직면해 있다. 그러나 파운데이션 모델의 등장으로 시맨틱의 정의가 단순한 ‘범주’에서 풍부한 ‘맥락적 지식’으로 확장되고 있으며, 다중 모드 센서 융합과 생애주기 SLAM에 대한 연구는 시스템의 강건성과 자율성을 새로운 차원으로 끌어올릴 잠재력을 보여주고 있다.
미래의 시맨틱 위치 인식 기술은 단순히 ‘어디에 있는가’라는 질문에 더 정확하게 답하는 것을 넘어, 로봇이 환경을 ‘이해’하고, 인간과 ‘상호작용’하며, 장기간에 걸쳐 ‘학습’하고 ‘적응’하는 지능형 에이전트로 진화하는 데 결정적인 기반이 될 것이다. 정확도와 효율성이라는 두 가지 목표를 동시에 추구하는 연구의 발전 속에서, 시맨틱 맵 매칭은 진정한 자율 시스템의 시대를 여는 열쇠가 될 것이다.
- Semantic visual simultaneous localization and mapping (SLAM) using deep learning for dynamic scenes - PMC, accessed July 1, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10588701/
- Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/385721155_Learning_from_Feedback_Semantic_Enhancement_for_Object_SLAM_Using_Foundation_Models
- Localization and Mapping for Self-Driving Vehicles: A Survey - MDPI, accessed July 1, 2025, https://www.mdpi.com/2075-1702/12/2/118
- map matching - velog, accessed July 1, 2025, https://velog.io/@jk01019/map-matching
- Demonstration of semantic map matching using three local maps, where… - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/figure/Demonstration-of-semantic-map-matching-using-three-local-maps-where-green-orange-and_fig5_350516892
- Multi-sensor Fusion Simultaneous Localization and Mapping: A Systematic Review, accessed July 1, 2025, https://www.researchgate.net/publication/384028361_Multi-sensor_Fusion_Simultaneous_Localization_and_Mapping_A_Systematic_Review
- 이동로봇을 위한 SLAM 기술, accessed July 1, 2025, http://icros.org/Newsletter/202201/5.%EB%A1%9C%EB%B4%87%EA%B8%B0%EC%88%A0%EB%A6%AC%EB%B7%B0.pdf
-
| CMC |
Free Full-Text |
Visual SLAM Based on Object Detection Network: A Review, accessed July 1, 2025, https://www.techscience.com/cmc/v77n3/55027/html |
- Semantic Visual Simultaneous Localization and Mapping: A Survey - arXiv, accessed July 1, 2025, https://arxiv.org/pdf/2209.06428
- Collaborative Mobile Robotics for Semantic Mapping: A Survey - MDPI, accessed July 1, 2025, https://www.mdpi.com/2076-3417/12/20/10316
- Semantic Maps in Robotics - Number Analytics, accessed July 1, 2025, https://www.numberanalytics.com/blog/ultimate-guide-semantic-maps-robotics
- Is Semantic SLAM Ready for Embedded Systems ? A Comparative Survey - arXiv, accessed July 1, 2025, https://arxiv.org/html/2505.12384v1
- Semantic Mapping for Navigation - Jianhao Jiao, accessed July 1, 2025, https://gogojjh.github.io/projects/2024_semantic_mapping/
- 토픽맵을 이용한 시소러스의 구조화 연구*, accessed July 1, 2025, https://scholarworks.bwise.kr/cau/bitstream/2019.sw.cau/29539/1/%ED%86%A0%ED%94%BD%EB%A7%B5%EC%9D%84%20%EC%9D%B4%EC%9A%A9%ED%95%9C%20%EC%8B%9C%EC%86%8C%EB%9F%AC%EC%8A%A4%EC%9D%98%20%EA%B5%AC%EC%A1%B0%ED%99%94%20%EC%97%B0%EA%B5%AC.pdf
- IntelliMove: Enhancing Robotic Planning with Semantic Mapping - arXiv, accessed July 1, 2025, https://arxiv.org/html/2410.14851v1
- Argoverse 2, accessed July 1, 2025, https://www.argoverse.org/av2.html
-
| 3 Ways Cruise HD Maps Give Our Self-Driving Vehicles An Edge |
by Erin Antcliffe - Medium, accessed July 1, 2025, https://medium.com/cruise/3-ways-cruise-hd-maps-give-our-self-driving-cars-an-edge-b6444720021c |
- Survey of simultaneous localization and mapping based on environmental semantic information, accessed July 1, 2025, https://cje.ustb.edu.cn/en/article/doi/10.13374/j.issn2095-9389.2020.11.09.006
- Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models - arXiv, accessed July 1, 2025, https://arxiv.org/html/2411.06752v1
- www.numberanalytics.com, accessed July 1, 2025, https://www.numberanalytics.com/blog/semantic-mapping-robotics-step-by-step#:~:text=Semantic%20maps%20can%20be%20used,path%20to%20a%20goal%20location.
- Unlocking Robot Intelligence with Semantic Mapping - Number Analytics, accessed July 1, 2025, https://www.numberanalytics.com/blog/semantic-mapping-robotics-step-by-step
- The KITTI Vision Benchmark Suite - Andreas Geiger, accessed July 1, 2025, https://www.cvlibs.net/datasets/kitti/
-
| KITTI Dataset |
Papers With Code, accessed July 1, 2025, https://paperswithcode.com/dataset/kitti |
- Scene planning - nuScenes, accessed July 1, 2025, https://www.nuscenes.org/nuscenes
- nuScenes: A multimodal dataset for autonomous driving - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/332011352_nuScenes_A_multimodal_dataset_for_autonomous_driving
- Argoverse, accessed July 1, 2025, https://www.argoverse.org/
- [1911.02620] Argoverse: 3D Tracking and Forecasting with Rich Maps - arXiv, accessed July 1, 2025, https://arxiv.org/abs/1911.02620
- (PDF) A survey of image semantics-based visual simultaneous localization and mapping: Application-oriented solutions to autonomous navigation of mobile robots - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/341348773_A_survey_of_image_semantics-based_visual_simultaneous_localization_and_mapping_Application-oriented_solutions_to_autonomous_navigation_of_mobile_robots
- arXiv:2412.06153v1 [cs.CV] 9 Dec 2024, accessed July 1, 2025, https://arxiv.org/pdf/2412.06153
- CVPR Poster Optimal Transport Aggregation for Visual Place Recognition, accessed July 1, 2025, https://cvpr.thecvf.com/virtual/2024/poster/30161
- General place recognition performance for the different season… - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/figure/General-place-recognition-performance-for-the-different-season-pairings-using-sequence_fig2_283623386
- [2103.06443] Where is your place, Visual Place Recognition? - arXiv, accessed July 1, 2025, https://arxiv.org/abs/2103.06443
- (PDF) Visual Place Recognition: A Tutorial - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/374128870_Visual_Place_Recognition_A_Tutorial
- SVS-VPR: A Semantic Visual and Spatial Information-Based Hierarchical Visual Place Recognition for Autonomous Navigation in Challenging Environmental Conditions, accessed July 1, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10857550/
- (PDF) Convolutional Neural Network-based Place Recognition - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/267983111_Convolutional_Neural_Network-based_Place_Recognition
- Place Recognition: An Overview of Vision Perspective - MDPI, accessed July 1, 2025, https://www.mdpi.com/2076-3417/8/11/2257
- Siamese Tracking Network with Spatial-Semantic-Aware Attention and Flexible Spatiotemporal Constraint - MDPI, accessed July 1, 2025, https://www.mdpi.com/2073-8994/16/1/61
- Local Semantic Siamese Networks for Fast Tracking - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/337974203_Local_Semantic_Siamese_Networks_for_Fast_Tracking
-
| How To Train Your Siamese Neural Network |
Towards Data Science, accessed July 1, 2025, https://towardsdatascience.com/how-to-train-your-siamese-neural-network-4c6da3259463/ |
- Semantic Textual Similarity with Siamese Neural Networks - ACL Anthology, accessed July 1, 2025, https://aclanthology.org/R19-1116/
- Siamese Neural Networks for One-shot Image Recognition - CMU School of Computer Science, accessed July 1, 2025, https://www.cs.cmu.edu/~rsalakhu/papers/oneshot1.pdf
- Camera localization with Siamese neural networks using iterative …, accessed July 1, 2025, https://academic.oup.com/jcde/article/9/4/1482/6650218
- A Survey on Visual Transformer - SciSpace, accessed July 1, 2025, https://scispace.com/pdf/a-survey-on-vision-transformer-3fin6y51.pdf
- Visual place recognition from end-to-end semantic scene … - Frontiers, accessed July 1, 2025, https://www.frontiersin.org/journals/robotics-and-ai/articles/10.3389/frobt.2024.1424883/full
- A Comprehensive Survey of Transformers for Computer Vision - MDPI, accessed July 1, 2025, https://www.mdpi.com/2504-446X/7/5/287
- PlaceFormer: Transformer-Based Visual Place Recognition Using …, accessed July 1, 2025, https://www.researchgate.net/publication/381052556_PlaceFormer_Transformer-based_Visual_Place_Recognition_using_Multi-Scale_Patch_Selection_and_Fusion
- TAT-VPR: Ternary Adaptive Transformer for Dynamic and … - arXiv, accessed July 1, 2025, https://arxiv.org/pdf/2505.16447
- Visual Place Recognition - Papers With Code, accessed July 1, 2025, https://paperswithcode.com/task/visual-place-recognition
- CVPR Poster Multi-Modal Aerial-Ground Cross-View Place …, accessed July 1, 2025, https://cvpr.thecvf.com/virtual/2025/poster/32913
- (PDF) Place recognition survey: An update on deep learning …, accessed July 1, 2025, https://www.researchgate.net/publication/352643867_Place_recognition_survey_An_update_on_deep_learning_approaches
- Ghost-dil-NetVLAD: A Lightweight Neural Network for Visual Place Recognition - arXiv, accessed July 1, 2025, https://arxiv.org/html/2112.11679v2
- [2106.10458] Place recognition survey: An update on deep learning approaches - arXiv, accessed July 1, 2025, https://arxiv.org/abs/2106.10458
- Revisit Anything: Visual Place Recognition via Image Segment Retrieval - arXiv, accessed July 1, 2025, https://arxiv.org/html/2409.18049v1
- CultReal-A Rapid Development Platform for AR Cultural Spaces, with Fused Localization, accessed July 1, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC8513013/
- Design and Research for Industrial Robot Using Goods Sorting in Warehouse, accessed July 1, 2025, https://www.researchgate.net/publication/364070674_Design_and_Research_for_Industrial_Robot_Using_Goods_Sorting_in_Warehouse
- Enhancing Driving and Road Safety: The Role of Map-Based ADAS and Mapping - Mosaic51, accessed July 1, 2025, https://www.mosaic51.com/featured/enhancing-driving-and-road-safety-the-role-of-map-based-adas-and-mapping/
- Graph Neural Networks - Self-Driving Cars - Medium, accessed July 1, 2025, https://medium.com/self-driving-cars/graph-neural-networks-ad308039f00b
-
| ICRA 2025 Program |
Thursday May 22, 2025, accessed July 1, 2025, https://ras.papercept.net/conferences/conferences/ICRA25/program/ICRA25_ContentListWeb_3.html |
- Toward Autonomous Localization of Planetary Robotic Explorers by Relying on Semantic Mapping, accessed July 1, 2025, https://www-robotics.jpl.nasa.gov/media/documents/Toward_Autonomous_Localization_of_Planetary_Robotic_Explorers_by_Relying_on_Se_JoTX19T.pdf
- [2203.13308] Verifiable Access Control for Augmented Reality Localization and Mapping, accessed July 1, 2025, https://arxiv.org/abs/2203.13308
- Using artificial intelligence to generate content for augmented reality - ČVUT DSpace, accessed July 1, 2025, https://dspace.cvut.cz/bitstream/handle/10467/114952/F3-DP-2024-Zizkova-Alena-Using_artificial_intelligence_to_generate_content_for_augmented_reality.pdf?sequence=-1&isAllowed=y
- VSLAM-LAB: A Comprehensive Framework for Visual SLAM Methods and Datasets - arXiv, accessed July 1, 2025, https://arxiv.org/html/2504.04457v1
- The KITTI Vision Benchmark Suite, accessed July 1, 2025, https://www.cvlibs.net/datasets/kitti/eval_odometry_detail.php?&result=ebd19480a9189befcbadae6456a17f70fd36ecae
- The KITTI Vision Benchmark Suite - Andreas Geiger, accessed July 1, 2025, https://www.cvlibs.net/datasets/kitti/eval_odometry.php
- nuScenes, accessed July 1, 2025, https://www.nuscenes.org/nuscenes?tutorial=maps
- nuScenes - Supervisely, accessed July 1, 2025, https://docs.supervisely.com/import-and-export/import/supported-annotation-formats/pointclouds/nuscenes
- Data Collection - nuScenes, accessed July 1, 2025, https://www.nuscenes.org/tutorial
- nuScenes devkit tutorial - Colab - Google, accessed July 1, 2025, https://colab.research.google.com/github/nutonomy/nuscenes-devkit/blob/master/python-sdk/tutorials/nuscenes_tutorial.ipynb
- nuScenes Map Expansion Tutorial, accessed July 1, 2025, https://www.nuscenes.org/tutorials/map_expansion_tutorial.html
- nuScenes prediction tutorial, accessed July 1, 2025, https://www.nuscenes.org/tutorials/prediction_tutorial.html
- Argoverse User Guide, accessed July 1, 2025, https://argoverse.github.io/user-guide/
- HD Maps - Argoverse User Guide, accessed July 1, 2025, https://argoverse.github.io/user-guide/api/hd_maps.html
- [Literature Review] The City that Never Settles: Simulation-based LiDAR Dataset for Long-Term Place Recognition Under Extreme Structural Changes, accessed July 1, 2025, https://www.themoonlight.io/en/review/the-city-that-never-settles-simulation-based-lidar-dataset-for-long-term-place-recognition-under-extreme-structural-changes
- LoCS-Net: Localizing convolutional spiking neural network for fast visual place recognition, accessed July 1, 2025, https://www.frontiersin.org/journals/neurorobotics/articles/10.3389/fnbot.2024.1490267/full
- Bruno Rafael Queirós Arcanjo - Research Repository, accessed July 1, 2025, https://repository.essex.ac.uk/39980/1/thesis.pdf
- Data Collection - nuScenes, accessed July 1, 2025, https://www.nuscenes.org/nuscenes?tutorial=prediction
- Appearance change prediction for long-term navigation across seasons - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/261307173_Appearance_change_prediction_for_long-term_navigation_across_seasons
- gmberton/EigenPlaces: Official code for ICCV 2023 paper “EigenPlaces: Training Viewpoint Robust Models for Visual Place Recognition” - GitHub, accessed July 1, 2025, https://github.com/gmberton/EigenPlaces
- SuperNoVA: Algorithm-Hardware Co-Design for Resource-Aware SLAM - People @EECS, accessed July 1, 2025, https://people.eecs.berkeley.edu/~ysshao/assets/papers/supernova-asplos2025.pdf
- General Place Recognition Survey: Towards Real-World Autonomy - arXiv, accessed July 1, 2025, https://arxiv.org/html/2405.04812v2
- CompSLAM: Complementary Hierarchical Multi-Modal Localization and Mapping for Robot Autonomy in Underground Environments - arXiv, accessed July 1, 2025, https://arxiv.org/html/2505.06483v1
- A Review of Multi-Sensor Fusion SLAM Systems Based on 3D LIDAR - MDPI, accessed July 1, 2025, https://www.mdpi.com/2072-4292/14/12/2835
- A Review of Multi-Sensor Fusion SLAM Systems Based on 3D LIDAR - ResearchGate, accessed July 1, 2025, https://www.researchgate.net/publication/361293274_A_Review_of_Multi-Sensor_Fusion_SLAM_Systems_Based_on_3D_LIDAR
- Camera, LiDAR, and IMU Based Multi-Sensor Fusion SLAM: A Survey - SciOpen, accessed July 1, 2025, https://www.sciopen.com/article/10.26599/TST.2023.9010010
Class-Relational Label Smoothing for Lifelong Visual Place Recognition - OpenReview, accessed July 1, 2025, https://openreview.net/forum?id=ZS1lCBLljq¬eId=EcQFhVfJVh