Booil Jung

딥러닝 기반 시맨틱 맵 매칭

자율 시스템이 물리적 세계와 지능적으로 상호작용하기 위해서는 주변 환경을 인식하고 이해하는 능력이 필수적이다. 이러한 능력의 핵심에는 ‘맵(Map)’이라는 개념이 자리 잡고 있으며, 이는 로봇이 자신의 위치를 파악하고, 경로를 계획하며, 작업을 수행하는 데 사용하는 내부적인 세계 표현이다. 수십 년 동안 로봇 공학 분야에서 환경 맵은 주로 기하학적 정보, 즉 공간의 물리적 구조를 담는 데 중점을 두었다. 그러나 진정한 의미의 자율성을 달성하기 위해서는 단순히 ‘어디에 무엇이 있는지’를 아는 것을 넘어 ‘그것이 무엇인지’를 이해하는 능력이 요구된다. 이러한 패러다임의 전환은 딥러닝 기술의 발전과 맞물려 ‘시맨틱 맵(Semantic Map)’이라는 새로운 형태의 환경 표현을 탄생시켰고, 이는 자율 시스템의 인식 능력을 근본적으로 바꾸고 있다. 본 보고서의 첫 번째 파트에서는 로봇 환경 표현의 진화 과정을 추적하고, 전통적인 기하학적 맵의 한계를 분석하며, 시맨틱 맵의 등장 배경과 그 핵심 구성 요소를 심도 있게 탐구한다. 이를 통해 왜 시맨틱 정보가 차세대 지능형 시스템에 필수적인지를 명확히 밝히고자 한다.

로봇 공학의 초기부터 현재에 이르기까지, 환경을 표현하는 방식은 기술의 발전과 함께 끊임없이 진화해왔다. 이러한 진화의 궤적은 단순한 공간 구조의 표현에서 시작하여, 의미와 맥락을 이해하는 고차원적인 세계 모델로 나아가고 있다. 이 과정은 자율 시스템이 수행할 수 있는 작업의 복잡성과 지능 수준을 결정하는 핵심적인 요소이다.

초기 로봇 및 자율 시스템에서 사용된 맵은 대부분 환경의 기하학적 구조를 표현하는 데 초점을 맞추었다. 대표적인 예로는 점유 격자 지도(Occupancy Grid Map), 포인트 클라우드(Point Cloud), 그리고 특징점 기반 맵(Feature-based Map)이 있다.1 점유 격자 지도는 환경을 2D 또는 3D 격자로 나누고 각 셀이 점유되었는지, 비어있는지, 또는 알 수 없는지를 확률적으로 나타낸다. 이는 경로 계획과 장애물 회피에 유용하지만, 환경의 세부적인 3D 구조를 표현하는 데는 한계가 있다.

LiDAR나 깊이 카메라와 같은 센서로부터 직접 생성되는 포인트 클라우드는 수백만 개의 3D 점으로 환경을 정밀하게 표현하여 기하학적 정확도 측면에서 매우 뛰어나다.3 그러나 이는 방대한 양의 비정형 데이터로, 저장 및 처리 비용이 높고, 각 점이 어떤 객체에 속하는지에 대한 정보, 즉 의미 정보가 부재하다.

한편, 시각 기반 SLAM(Simultaneous Localization and Mapping, SLAM) 시스템에서는 SIFT(Scale-Invariant Feature Transform), SURF(Speeded-Up Robust Features), ORB(Oriented FAST and Rotated BRIEF)와 같은 특징점을 추출하여 맵을 구성한다.4 이러한 특징점들은 이미지에서 두드러지는 코너나 엣지 등으로, 위치 추적(Localization)과 루프 폐쇄(Loop Closure)에 효과적으로 사용된다. 하지만 이들 역시 기하학적 위치 정보만을 담고 있을 뿐, ‘이 특징점이 건물의 모서리인지, 자동차의 헤드라이트인지’와 같은 의미론적 정보를 포함하지 않는다.

이러한 전통적인 기하학적 맵들은 ‘어디에(Where)’ 장애물이 있는지는 알려주지만, ‘무엇이(What)’ 있는지에 대해서는 답을 주지 못한다.1 이로 인해 몇 가지 근본적인 한계에 직면하게 된다. 첫째, 조명 변화, 날씨, 계절 변화와 같은 환경의 외형 변화에 매우 취약하다.5 예를 들어, 여름에 구축된 특징점 맵은 겨울에 눈이 쌓이면 무용지물이 될 수 있다. 둘째, 동적 환경(Dynamic Environment)에 대한 대처 능력이 부족하다. 맵 상의 모든 요소를 정적이라고 가정하기 때문에, 사람이나 차량과 같은 움직이는 객체들을 잘못된 정적 랜드마크로 인식하여 위치 추정의 정확도를 심각하게 저하시킬 수 있다. 이는 전통적인 Visual SLAM(vSLAM)의 주요 실패 원인 중 하나이다.6 마지막으로, 로봇이 고차원적인 작업을 수행하는 데 필요한 추론 능력을 지원하지 못한다. 예를 들어, “부엌으로 가서 컵을 가져와”와 같은 명령을 이해하고 수행하려면, 로봇은 ‘부엌’, ‘컵’이라는 객체의 의미와 그들 간의 관계를 이해해야 하지만, 기하학적 맵만으로는 이러한 작업이 불가능하다.

이러한 한계를 극복하기 위해 등장한 것이 바로 ‘시맨틱 맵(Semantic Map)’이다. 시맨틱 맵은 환경의 기하학적 표현에 고차원적인 의미 정보를 통합한 강화된 형태의 맵이다.3 여기서 ‘시맨틱(Semantic)’ 정보란, 사람이 환경을 이해하는 방식과 유사하게 객체의 종류(예: 자동차, 건물, 나무), 기능(예: 도로는 주행 가능), 속성(예: 신호등은 빨간색) 및 객체 간의 관계(예: 의자는 테이블 옆에 있다) 등을 포함하는 모든 정보를 의미한다.3

이러한 시맨틱 맵을 통해 로봇은 단순한 장애물 회피를 넘어 진정한 의미의 장면 이해(Scene Understanding)를 달성할 수 있게 된다.10 예를 들어, 도로와 인도를 구분하여 주행 가능한 영역을 파악하고, 움직이는 차량을 동적 객체로 인식하여 추적에서 제외하며, ‘사무실’이라는 공간의 개념을 이해하여 특정 사무실을 찾아가는 등의 지능적인 행동이 가능해진다. 이처럼 시맨틱 맵은 로봇이 보다 복잡하고 역동적인 실제 환경에서 강건하고 안전하게 임무를 수행하기 위한 필수적인 기반 기술로 자리매김하고 있다. 기하학적 재구성(reconstruction)에 머물렀던 기존의 맵핑 패러다임이, 시맨틱 맵의 등장으로 인해 비로소 환경에 대한 이해(comprehension)로 나아가게 된 것이다. 이는 단순히 맵에 레이블을 추가하는 것을 넘어, 로봇의 인식 및 의사결정 체계 자체를 근본적으로 바꾸는 패러다임의 전환이라 할 수 있다. SLAM의 목표가 더 이상 기하학적으로 정확한 3D 모델을 만드는 것에 그치지 않고, 로봇이 추론하고 상호작용할 수 있는 지능적인 세계 모델을 구축하는 것으로 확장되었음을 의미한다.8

시맨틱 맵은 단일한 형태가 아니라, 여러 계층의 정보가 결합된 복합적인 데이터 구조이다. 일반적으로 기하학적 계층, 시맨틱 계층, 위상학적 계층, 그리고 온톨로지 계층으로 구성되며, 각 계층은 서로 다른 수준의 추상화된 정보를 제공하여 로봇의 다양한 작업을 지원한다.

기하학적 계층 (Geometric Layer): 이는 시맨틱 맵의 가장 기초가 되는 뼈대로, 환경의 물리적 공간 구조를 표현한다. 이 계층은 애플리케이션의 요구사항에 따라 다양한 형태로 구축될 수 있으며, 대표적으로 3D 포인트 클라우드, 3D 메쉬(Mesh), 또는 벡터화된 맵(Vectorized Map) 등이 사용된다.3 예를 들어, 자율주행 차량은 차선, 도로 경계, 표지판 등을 정밀한 벡터 데이터로 표현한 HD 맵을 기하학적 기반으로 사용한다.
시맨틱 계층 (Semantic Layer): 기하학적 계층 위에 구축되는 이 계층은 각 기하학적 요소에 의미론적 레이블을 부여한다.8 예를 들어, 3D 메쉬의 특정 표면에는 ‘벽(wall)’, ‘바닥(floor)’, ‘천장(ceiling)’과 같은 레이블이 할당되고, 포인트 클라우드의 특정 군집에는 ‘자동차(car)’, ‘사람(person)’, ‘나무(tree)’와 같은 객체 레이블이 부여된다.15 이 정보는 딥러닝 기반의 시맨틱 분할(Semantic Segmentation)이나 객체 탐지(Object Detection) 기술을 통해 주로 획득된다.
위상학적 계층 (Topological Layer): 기하학적 맵이 미터(meter) 단위의 정밀한 위치 정보를 제공한다면, 위상학적 맵은 환경을 더 추상적인 수준에서 표현한다. 이 맵은 환경을 중요한 장소(Place)들을 나타내는 노드(Node)와 이들 간의 연결성(Connectivity)을 나타내는 엣지(Edge)로 구성된 그래프(Graph) 구조로 모델링한다.16 예를 들어, 실내 환경에서는 각 ‘방’이나 ‘복도’가 노드가 되고, 이들을 연결하는 ‘문’이 엣지가 될 수 있다.18 이러한 표현은 “A방에서 C방으로 가려면 B방을 거쳐야 한다”와 같은 고수준의 경로 계획을 매우 효율적으로 수행할 수 있게 해준다.3
온톨로지 계층 (Ontological Layer): 이는 가장 추상화된 최상위 계층으로, 객체와 장소, 그리고 그들 간의 관계를 형식적인 지식 체계(Knowledge Base)로 정의한다.20 온톨로지는 “컵은 주방에서 발견될 가능성이 높다”거나 “자동차는 움직일 수 있는 객체이다”와 같은 상식적인 지식과 규칙을 포함한다.8 이 계층을 통해 로봇은 명시적으로 관찰되지 않은 정보에 대해서도 추론을 수행할 수 있다. 예를 들어, 오븐을 발견했을 때, 온톨로지 지식을 이용해 현재 위치가 ‘주방’일 것이라고 추론하는 것이 가능하다.8

시맨틱 정보의 도입은 단순히 맵을 더 풍부하게 만드는 것을 넘어, 자율 시스템의 근본적인 능력을 확장시키는 핵심 동력이다. 시맨틱 정보가 필수적인 이유는 다음과 같이 요약할 수 있다.

첫째, 고수준 작업 계획(High-level Task Planning)을 가능하게 한다. 앞서 언급했듯이, “회의실로 가서 프로젝터를 켜라”와 같은 인간의 명령을 이해하고 수행하기 위해서는 ‘회의실’과 ‘프로젝터’라는 시맨틱 개념에 대한 이해가 필수적이다.16 시맨틱 맵은 로봇이 이러한 추상적인 목표를 기하학적 공간에서의 구체적인 행동으로 변환할 수 있는 다리 역할을 한다.

둘째, 동적 환경에서의 강건성(Robustness)을 획기적으로 향상시킨다. 시맨틱 분할을 통해 로봇은 ‘사람’, ‘자동차’와 같이 일반적으로 움직이는 객체들을 식별할 수 있다. 이러한 동적 객체들을 SLAM 과정에서 랜드마크로 사용하지 않고 제외함으로써, 위치 추정의 오류를 크게 줄이고 안정적인 항법을 유지할 수 있다.6

셋째, 안전하고 자연스러운 인간-로봇 상호작용(Human-Robot Interaction)을 촉진한다. 로봇이 환경을 인간과 유사한 방식으로 이해할 때, 인간과의 소통이 훨씬 원활해진다.8 예를 들어, 로봇이 “파란색 의자 옆으로 이동해”라는 명령을 이해하거나, 위험 지역(예: 계단)을 시맨틱 정보로 인지하고 사용자에게 경고하는 등의 상호작용이 가능해진다.13

결론적으로, 시맨틱 맵은 로봇에게 환경에 대한 깊이 있는 이해를 제공함으로써, 단순한 기계적 움직임을 넘어 지능적인 판단과 행동을 가능하게 하는 핵심 기술이다. 이는 미래의 자율 시스템이 더욱 복잡하고 예측 불가능한 실제 세계에서 인간과 효과적으로 공존하고 협력하기 위한 필수적인 전제 조건이라 할 수 있다.

시맨틱 맵이라는 정교한 세계 모델을 구축하는 과정은 여러 기술 요소가 유기적으로 결합된 복잡한 파이프라인이다. 이는 단순히 센서 데이터를 처리하는 것을 넘어, 데이터를 수집하고, 기하학적 구조를 만들고, 의미를 부여하며, 이 모든 정보를 일관성 있게 융합하는 전 과정을 포함한다. 이 섹션에서는 시맨틱 맵이 실제로 어떻게 만들어지는지, 그 구체적인 프로세스를 단계별로 상세히 살펴본다. 이 과정의 핵심에는 다중 센서 데이터의 융합과, 그 데이터를 해석하는 딥러닝 기술이 자리 잡고 있다.

시맨틱 맵 구축의 첫 단계는 환경에 대한 원시 데이터를 수집하는 것이다. 정확하고 풍부한 맵을 만들기 위해서는 단일 센서에 의존하기보다 여러 종류의 센서를 함께 사용하는 다중 모달 센싱(Multi-Modal Sensing)이 필수적이다.

다중 모달 센싱: 각 센서는 고유한 장단점을 가지며, 이들을 결합할 때 상호 보완적인 효과를 얻을 수 있다.
- LiDAR (Light Detection and Ranging): 레이저 펄스를 사용하여 주변 환경까지의 거리를 정밀하게 측정한다. 이를 통해 매우 정확하고 밀도 높은 3D 포인트 클라우드를 생성하여, 맵의 기하학적 정확도를 보장하는 데 핵심적인 역할을 한다.10 LiDAR는 조명 변화에 강하지만, 색상이나 텍스처 정보를 제공하지 못하는 단점이 있다.
- 카메라 (Camera): RGB 카메라는 풍부한 색상과 텍스처 정보를 제공하여, 딥러닝 모델이 객체를 인식하고 시맨틱 레이블을 부여하는 데 필수적인 정보를 제공한다.11 스테레오 카메라나 RGB-D 카메라는 깊이 정보까지 함께 제공하여 3D 구조를 추정하는 데 도움을 준다. 카메라는 저렴하고 정보가 풍부하지만, 조명이나 날씨 같은 환경 변화에 민감하다.11
- IMU (Inertial Measurement Unit): 관성 측정 장치인 IMU는 가속도계와 자이로스코프를 이용해 시스템의 가속도와 각속도를 측정한다. 이를 통해 단기간의 움직임을 매우 정밀하게 추정할 수 있으며, 카메라나 LiDAR 데이터만으로는 추정하기 어려운 빠른 움직임이나 특징이 없는 환경에서의 모션 추정을 보완하는 중요한 역할을 한다.4
  
  이러한 여러 센서로부터 얻은 데이터를 효과적으로 융합(Sensor Fusion)함으로써, 각 센서의 단점을 보완하고 전체 시스템의 강건성과 정확도를 높일 수 있다.4
데이터 전처리: 수집된 원시 데이터는 바로 사용되기 전에 여러 전처리 과정을 거쳐야 한다.
- 센서 캘리브레이션 (Sensor Calibration): 각 센서의 내부 파라미터(Intrinsic Parameters, 예: 카메라 렌즈 왜곡)와 센서들 간의 상대적인 위치 및 방향(Extrinsic Parameters)을 정확하게 측정하고 보정하는 과정이다.10 이는 여러 센서 데이터를 하나의 좌표계로 정합하기 위한 필수적인 단계이다.
- 데이터 동기화 (Data Synchronization): 서로 다른 주기로 동작하는 센서들로부터 들어오는 데이터에 정확한 타임스탬프를 부여하고, 이를 기준으로 시간을 정렬하는 과정이다. 예를 들어, 20Hz로 동작하는 LiDAR와 12Hz로 동작하는 카메라 데이터를 정확히 동기화해야 올바른 맵핑이 가능하다.25
- 노이즈 필터링 (Noise Filtering): 센서 측정값에 포함된 노이즈나 이상치(Outlier)를 제거하여 데이터의 품질을 향상시키는 과정이다.13

전처리된 데이터는 SLAM 알고리즘의 입력으로 사용된다. SLAM은 자율 시스템이 미지의 환경을 탐색하면서 자신의 위치를 추정함과 동시에, 주변 환경의 맵을 생성하는 기술이다.8 시맨틱 SLAM에서 SLAM은 전체 시스템의 ‘백본(Backbone)’ 역할을 하며, 시맨틱 정보가 입혀질 기하학적 뼈대를 제공한다.

SLAM의 역할: SLAM 시스템은 연속적인 센서 입력을 받아 두 가지 주요 작업을 동시에 수행한다. 하나는 ‘추적(Tracking)’으로, 매 순간 센서의 6-DoF(자유도) 포즈(위치와 방향)를 추정하는 것이다. 다른 하나는 ‘맵핑(Mapping)’으로, 추정된 포즈를 기반으로 센서 데이터를 누적하여 일관성 있는 환경 맵을 구축하는 것이다.26
SLAM 패러다임: SLAM은 크게 필터 기반(Filter-based) 방식과 최적화 기반(Optimization-based) 방식으로 나뉜다. 초기 SLAM은 칼만 필터(Kalman Filter)와 같은 필터 기반 접근법을 주로 사용했지만, 최근에는 더 높은 정확도와 강건성을 제공하는 최적화 기반 방식이 주류를 이루고 있다. 이 방식은 일정 시간 동안의 센서 측정값과 포즈를 하나의 그래프로 모델링하고, 전체 그래프의 오차(예: 재투영 오차)를 최소화하는 방식으로 최적의 포즈와 맵을 찾는다.23
대표적인 SLAM 시스템: 많은 시맨틱 SLAM 시스템들은 ORB-SLAM2/3와 같은 잘 알려진 오픈소스 vSLAM 시스템을 기반으로 개발된다.2 이러한 시스템들은 이미 강건한 추적 및 맵핑, 루프 폐쇄 기능을 제공하므로, 연구자들은 여기에 시맨틱 모듈을 추가하여 시스템을 확장하는 방식으로 개발에 집중할 수 있다.

SLAM을 통해 기하학적 뼈대가 구축되면, 다음 단계는 이 뼈대에 의미를 부여하는 것이다. 이 과정의 핵심에는 딥러닝, 특히 심층 합성곱 신경망(CNN)과 트랜스포머(Transformer)가 있다.

시맨틱 분할 (Semantic Segmentation): 시맨틱 분할은 이미지의 모든 픽셀을 특정 클래스(예: 도로, 건물, 하늘, 나무 등)로 분류하는 기술이다.13 U-Net, SegNet, DeepLab과 같은 CNN 기반 모델들이 이 작업에 널리 사용된다.28 이 기술을 통해 얻은 2D 시맨틱 맵은 3D 공간에 투영되어 3D 시맨틱 맵을 생성하는 데 사용된다.10
객체/인스턴스 탐지 (Object/Instance Detection): 시맨틱 분할이 픽셀 단위의 클래스를 제공한다면, 객체 탐지는 이미지 내에 있는 개별 객체들의 위치(바운딩 박스)와 클래스를 식별한다. YOLO, SSD, Faster R-CNN과 같은 모델이 대표적이다.15 여기서 더 나아가 인스턴스 분할(Instance Segmentation)은 개별 객체를 픽셀 단위로 정확하게 분리해낸다. Mask R-CNN과 같은 모델은 동일한 클래스의 객체들(예: 여러 대의 자동차)을 서로 다른 인스턴스로 구분할 수 있게 해주어, 객체 수준의 정교한 상호작용과 추론에 필수적이다.28

마지막 단계는 SLAM을 통해 얻은 기하학적 정보와 딥러닝을 통해 얻은 시맨틱 정보를 하나의 일관된 맵으로 융합하는 것이다.

2D에서 3D로의 투영: 가장 일반적인 방법은 2D 이미지에서 얻은 시맨틱 레이블을 카메라 포즈와 깊이 정보를 이용해 3D 공간의 포인트 클라우드나 메쉬에 투영하는 것이다.10 각 3D 포인트나 메쉬의 면(face)은 그것을 관찰한 여러 이미지 픽셀들의 시맨틱 레이블 정보를 받게 된다.
확률적 융합 (Probabilistic Fusion): 동일한 3D 지점이 여러 다른 시점과 각도에서 관찰될 때, 조명 변화나 가려짐 등으로 인해 시맨틱 분할 결과가 일관되지 않을 수 있다. 이러한 불확실성을 처리하기 위해 확률적 융합 기법이 사용된다. 대표적으로 베이즈 업데이트(Bayesian Update) 방식이 있는데, 각 3D 복셀(Voxel)이나 서펠(Surfel)은 각 시맨틱 클래스에 대한 확률 분포를 가지며, 새로운 관측이 들어올 때마다 이 확률 분포를 업데이트한다.30 이 과정을 통해 여러 시점의 정보를 통합하여 노이즈에 강하고 일관성 있는 최종 시맨틱 맵을 생성할 수 있다. Kimera와 같은 시스템은 이러한 확률적 융합을 통해 실시간으로 정밀한 미터법-시맨틱 메쉬를 생성하는 대표적인 예이다.29

이처럼 시맨틱 맵 구축은 단일 기술이 아닌, 센싱, SLAM, 딥러닝, 확률 이론이 결합된 하나의 ‘생태계’를 이룬다. 이 생태계의 중요한 특징 중 하나는 맵이 정적인 결과물이 아니라는 점이다. SLAM 자체가 반복적인 추정과 업데이트 과정이듯이 14, 시맨틱 맵 역시 지속적으로 갱신되고 유지보수되어야 하는 동적인 세계 모델이다. 특히 자율주행을 위한 HD 맵은 도로 공사나 새로운 건물의 등장과 같은 실제 세계의 변화를 반영하기 위해 빈번한 업데이트가 필수적이다.26 이는 맵 구축이 데이터 수집, 맵핑, 유지보수/업데이트라는 ‘생명주기(Lifecycle)’를 가진다는 것을 의미하며 33, ‘생애주기 맵핑(Lifelong Mapping)’과 ‘변화 탐지(Change Detection)’가 장기 자율성을 위한 중요한 연구 분야임을 시사한다.34 로봇은 단순히 맵을 만드는 것을 넘어, 세상이 어떻게 변했는지를 인지하고 자신의 세계 모델을 스스로 수정해나갈 수 있어야 한다.

시맨틱 맵이 성공적으로 구축되었다면, 다음 핵심 과제는 이 맵을 기준으로 자율 시스템의 현재 위치를 정확하게 파악하는 것, 즉 ‘위치 인식(Localization)’ 또는 ‘지형지물 매칭(Map Matching)’이다. 딥러닝 기반 시맨틱 맵 매칭은 이 과정을 전례 없는 수준의 정확도와 강건성으로 수행하기 위한 현대적인 접근법이다. 이 프로세스는 크게 세 단계로 나눌 수 있다: (1) 센서 데이터를 의미 있는 벡터로 변환하는 특징 인코딩(Feature Encoding), (2) 인코딩된 센서 특징을 사전 구축된 맵의 특징과 연관시키는 교차 모달 연관(Cross-Modal Association), 그리고 (3) 연관된 정보를 바탕으로 최종적인 6-DoF 포즈를 계산하는 포즈 추론(Pose Inference). 본 파트에서는 이 세 가지 핵심 단계를 기술적으로 깊이 파고들어, 딥러닝이 어떻게 원시 픽셀로부터 좌표를 추론해내는지 그 구체적인 메커니즘을 해부한다.

위치 인식의 첫 단계는 카메라 이미지나 LiDAR 포인트 클라우드와 같은 원시 센서 데이터를 매칭에 적합한 형태로 가공하는 것이다. 이 과정의 목표는 환경의 외형 변화에는 강건하면서도, 위치를 특정할 수 있는 고유한 정보를 담고 있는 간결한 특징 표현(Feature Representation)을 추출하는 것이다. 딥러닝 기술은 이러한 특징을 데이터로부터 직접 학습함으로써 기존의 수동 설계 방식의 한계를 뛰어넘는다.

전통적인 컴퓨터 비전에서는 SIFT, SURF, ORB와 같은 수동으로 설계된(hand-crafted) 특징 디스크립터가 널리 사용되었다.4 이들은 이미지의 코너나 블롭(blob)과 같은 특정 패턴을 감지하고, 그 주변의 그래디언트 정보를 기반으로 고유한 벡터(디스크립터)를 생성한다. 이 디스크립터들은 어느 정도의 시점 변화나 조명 변화에 강건성을 갖지만, 계절 변화나 극심한 조명 조건과 같은 큰 외형 변화 앞에서는 매칭 성능이 급격히 저하되는 한계를 보였다.

반면, 딥러NING 기반 접근법은 심층 신경망을 이용해 데이터로부터 직접 특징을 학습한다. 이를 통해 네트워크는 특정 작업(예: 위치 인식)에 가장 유용한 특징이 무엇인지를 스스로 발견하게 되며, 결과적으로 수동 설계된 특징보다 훨씬 뛰어난 강건성과 표현력을 갖게 된다.5

합성곱 신경망(CNN)은 이미지 특징 추출을 위한 가장 대표적인 딥러닝 모델이다. CNN은 여러 개의 합성곱 레이어를 통해 이미지의 계층적인 특징을 학습한다.37 초기 레이어에서는 엣지나 색상과 같은 저수준의 지역적 특징을, 깊은 레이어로 갈수록 객체의 부분이나 전체와 같은 고수준의 추상적이고 의미론적인 특징을 추출한다. 위치 인식에서는 특히 이 고수준 특징이 중요하다. 왜냐하면 이는 객체의 정체성이나 장면의 전반적인 구조와 같은, 외형 변화에 덜 민감한 시맨틱 정보를 담고 있기 때문이다.39 예를 들어, 나무의 개별 잎사귀 모양은 계절에 따라 변하지만 ‘나무’라는 객체의 전반적인 형태와 존재 자체는 변하지 않는다. CNN의 고수준 특징은 바로 이러한 불변의 의미 정보를 포착하는 데 효과적이다.

최근에는 CNN을 넘어 트랜스포머(Transformer) 아키텍처가 컴퓨터 비전 분야에서도 두각을 나타내고 있다.

비전 트랜스포머 (Vision Transformer, ViT): 자연어 처리 분야에서 시작된 트랜스포머는 ‘셀프 어텐션(Self-Attention)’ 메커니즘을 핵심으로 한다. 이를 이미지에 적용한 ViT는 이미지를 여러 개의 패치(patch)로 나눈 뒤, 각 패치가 다른 모든 패치와 얼마나 관련이 있는지를 계산하여 전역적인 문맥(global context)을 파악한다.36 이 능력 덕분에 ViT는 이미지 내 객체들 간의 공간적 관계나 장면 전체의 구조를 이해하는 데 매우 뛰어나며, 이는 시맨틱 이해에 기반한 강건한 위치 인식에 큰 장점으로 작용한다.
조감도 (Bird’s-Eye-View, BEV) 표현: BEV는 특히 자율주행 분야에서 위치 인식 아키텍처의 핵심적인 패턴으로 자리 잡았다. 이 접근법의 핵심 아이디어는 차량 주변에 장착된 여러 대의 카메라로부터 얻은 다중 시점 이미지들을 하나의 통일된 상단 시점(top-down)의 2D 특징 맵으로 변환하는 것이다.37 차량의 카메라는 기본적으로 원근 투영(perspective view)된 이미지를 생성하는데, 이는 위에서 내려다보는 형태의 지도와 직접 비교하기가 어렵다. BEV 인코더는 이러한 시점 차이를 극복하기 위해, 이미지 특징을 BEV 공간으로 ‘투영’하는 변환 자체를 학습한다.

이 BEV 변환 과정은 위치 인식 문제를 두 단계로 효과적으로 분리하는 중요한 역할을 한다. 첫 번째 단계에서 네트워크는 “이미지 공간의 픽셀을 지도 공간의 어느 위치에 해당하는가?”라는 어려운 시점 변환 문제를 해결한다. 그리고 두 번째 단계에서는 이미 동일한 BEV 공간상에 정렬된 센서 특징과 지도 특징을 가지고 훨씬 더 간단해진 매칭 문제를 풀게 된다. 이처럼 문제를 단순화하는 BEV 표현의 능력은, 복잡한 기하학적 추론 없이도 데이터 주도 방식으로 정확한 위치 인식을 가능하게 하는 최근 종단간(end-to-end) 모델들의 성공에 결정적인 기여를 했다.37 센서 데이터와 맵 데이터를 비교하기 전에 공통의 ‘운동장’으로 모으는 이 전략은, 이종(heterogeneous) 데이터 간의 매칭 문제를 훨씬 다루기 쉽게 만들어주는 핵심적인 혁신이다.

특징 인코딩을 통해 센서 데이터와 맵 데이터가 각각 의미 있는 벡터 표현으로 변환되었다면, 다음 단계는 이 둘을 서로 연결하는, 즉 ‘매칭’하는 과정이다. 이 단계는 현재 로봇이 보고 있는 장면이 맵의 어느 부분에 해당하는지를 찾는 과정으로, 위치 인식의 심장부라 할 수 있다. 특히 카메라 이미지(시각 모달리티)와 벡터화된 지도(구조적 모달리티)처럼 서로 다른 형태의 데이터를 연관시켜야 하므로 ‘교차 모달 연관(Cross-Modal Association)’이라고도 불린다.

딥러닝 이전의 시대에는 데이터 연관이 주로 기하학적 유사성에 기반하여 수행되었다. 예를 들어, ORB-SLAM과 같은 시스템에서는 현재 이미지에서 추출한 ORB 디스크립터와 맵에 저장된 3D 포인트들의 ORB 디스크립터를 비교한다. KD-트리(KD-Tree)와 같은 자료구조를 사용하여 디스크립터 공간에서 가장 가까운 이웃을 효율적으로 찾고, 이를 초기 매칭 쌍으로 간주한다. 그러나 이러한 초기 매칭에는 잘못된 연관(outlier)이 많이 포함될 수 있으므로, RANSAC(Random Sample Consensus)과 같은 강건한 추정 기법을 사용하여 기하학적으로 일관된 매칭 쌍(inlier)만을 선별하고, 이를 바탕으로 포즈를 계산했다.37 이 방식은 효과적이지만, 성능이 특징 디스크립터의 품질에 크게 의존하며, RANSAC의 반복적인 샘플링 과정 때문에 계산 비용이 높고 복잡한 파라미터 튜닝이 필요하다는 단점이 있었다.

현대적인 접근법은 이러한 데이터 연관 과정을 학습을 통해 해결한다. 특히 트랜스포머 아키텍처의 ‘교차 어텐션(Cross-Attention)’ 메커니즘은 이 작업에 매우 이상적인 도구임이 입증되었다.37

교차 어텐션 기반 연관 프로세스는 다음과 같이 동작한다.

쿼리, 키, 값 설정: 현재 센서(예: 카메라)로부터 인코딩된 BEV 특징 벡터들은 ‘쿼리(Query)’가 된다. 이는 “내가 지금 보고 있는 것은 이것이다”라는 질문에 해당한다. 사전 구축된 시맨틱 맵의 각 요소(예: 차선, 정지선 등)로부터 인코딩된 특징 벡터들은 ‘키(Key)’와 ‘값(Value)’이 된다. 키는 “나는 이런 특징을 가진 맵 요소이다”라는 신분증과 같고, 값은 해당 맵 요소가 가진 풍부한 정보 자체이다.
어텐션 스코어 계산: 네트워크는 각 쿼리(센서 특징)와 모든 키(맵 특징) 간의 유사도를 계산한다. 이 유사도 점수가 바로 ‘어텐션 스코어’이다.
가중합 계산: 계산된 어텐션 스코어를 가중치로 사용하여 모든 값(맵 특징)들의 가중합을 구한다.

이 과정을 통해 네트워크는 현재 보고 있는 시각적 장면에 가장 관련성이 높은 맵 요소에 ‘집중(attend)’하는 법을 학습한다. 이는 명시적인 매칭 쌍을 찾는 대신, 부드럽고(soft) 미분 가능한 방식으로 데이터 연관을 수행하는 것과 같다.4 트랜스포머는 어떤 시각적 단서가 어떤 지도 요소와 강하게 연관되는지를 데이터로부터 직접 학습하므로, 복잡한 규칙이나 파라미터 튜닝 없이도 매우 강건한 연관 관계를 찾을 수 있다.

이러한 학습 기반 연관 방식은 위치 인식 문제의 본질을 바꾸어 놓았다. 전통적인 기하학적 정합(geometric registration) 문제는 두 개의 점 집합 간의 기하학적 거리를 최소화하는 문제였다. 그러나 트랜스포머 기반의 BEV-Locator와 같은 모델은 이 문제를 “현재의 시각적 쿼리가 주어졌을 때, 맵의 어느 위치에 있을 가능성이 가장 높은가?”를 묻는 시맨틱 질의(semantic querying) 문제로 재정의한다.37 네트워크는 시각 데이터와 맵 데이터를 위한 공동의 임베딩 공간(joint embedding space)을 학습하고, 위치 인식은 이 학습된 시맨틱 공간에서 가장 가까운 이웃을 찾는 검색(retrieval) 작업이 된다. 이는 사소한 기하학적 불일치에 훨씬 강건한, 더 추상적이고 강력한 문제 해결 방식이다.

또 다른 강력한 접근법은 현재 센서 데이터와 맵을 모두 그래프(Graph)로 표현하는 것이다. 이 방식에서 노드(node)는 객체나 의미론적 세그먼트(예: 벽, 문)를 나타내고, 엣지(edge)는 이들 간의 공간적 관계(예: ‘A는 B의 옆에 있다’)를 나타낸다.34

이러한 표현 하에서 위치 인식 문제는 두 그래프, 즉 현재 관측 그래프와 사전 구축된 맵 그래프 간의 최적의 정합(graph matching)을 찾는 문제가 된다. 이는 종종 두 그래프에서 구조적으로 가장 일치하는 부분 그래프(subgraph)를 찾는 최대 클리크 문제(Maximum Clique Problem)로 공식화될 수 있다.34 이 방법은 개별 특징점의 모양보다는 객체들 간의 구조적 일관성을 중시하기 때문에, 특징이 부족하거나 반복적인 패턴이 많은 환경(perceptually aliased environments)에서 특히 강건한 성능을 보인다.

센서 특징과 맵 특징 간의 신뢰할 수 있는 대응 관계(correspondences)가 확립되면, 마지막 단계는 이를 바탕으로 로봇의 최종적인 6-DoF 포즈, 즉 3차원 공간에서의 위치(x,y,z)와 3축 회전(roll, pitch, yaw)을 계산하는 것이다. 이 과정 역시 전통적인 최적화 기법과 최신 딥러닝 기반의 종단간 회귀 방식으로 나눌 수 있다.

이 접근법은 고전적이면서도 여전히 매우 강력한 방식으로, 확립된 매칭 쌍을 제약 조건(constraints)으로 사용하여 비선형 최적화(non-linear optimization) 문제를 풀어 포즈를 추정한다.

팩터 그래프 (Factor Graph): 현대적인 SLAM 시스템의 백엔드는 대부분 팩터 그래프라는 프레임워크를 기반으로 한다.24 팩터 그래프는 시스템의 상태 변수(State Variables, 예: 각 시간 스텝에서의 로봇 포즈)와 측정값(Measurements, 예: 시각적 맵 매칭 결과, IMU 측정치, 주행 거리계) 간의 관계를 그래프 형태로 표현한 것이다. 각 측정값은 상태 변수들 간의 확률적 제약 조건, 즉 ‘팩터(Factor)’를 생성한다. 위치 인식 문제는 이 모든 팩터들을 동시에 만족시키는, 즉 전체 시스템의 확률을 최대화하는 상태 변수들을 찾는 문제가 된다. 이는 결국 거대한 규모의 최소 제곱법(least-squares) 최적화 문제로 귀결되며, 효율적인 희소 행렬(sparse matrix) 기법을 통해 해를 구한다.24 팩터 그래프는 칼만 필터의 일반화된 형태로, 다양한 종류의 센서 정보를 체계적으로 융합하여 가장 가능성 높은(most probable) 전체 궤적을 추정하는 데 매우 강력한 도구이다.

완전한 종단간(end-to-end) 딥러닝 모델에서는 네트워크가 포즈 파라미터를 직접 출력(회귀, regression)한다.40 예를 들어, 트랜스포머 기반의 특징 연관 모듈 뒤에 하나 이상의 완전 연결 계층(fully-connected layers)을 추가하여, 이 계층이 최종적으로 6개의 숫자(3개의 이동 값과 3개의 회전 값)를 출력하도록 학습시킨다. 이 방식은 특징 추출부터 포즈 계산까지 전체 파이프라인을 하나의 네트워크로 구성하여 종단간 학습이 가능하다는 장점이 있다. 이를 통해 전체 시스템을 위치 인식 오차를 줄이는 방향으로 한 번에 최적화할 수 있어 파이프라인이 단순화된다. 하지만 최적화 기반 방식에 비해 내부 동작을 해석하기 어려운 ‘블랙박스(black-box)’적인 특성을 가질 수 있으며, 때로는 학습 데이터에 과적합될 위험이 있다.40

최신 연구에서는 종단간 방식의 효율성을 높이기 위한 진보된 기법들이 제안되고 있다. 그중 하나는 6-DoF 포즈를 한 번에 푸는 대신, 문제를 분리하여 푸는 것이다. 예를 들어, 자율주행과 같이 주로 평면상에서 움직이는 경우, 수평 위치(x,y)와 방향(yaw)을 먼저 풀고, 나머지 높이(z)와 roll, pitch를 별도로 추정하거나 고정된 값으로 가정할 수 있다. 이러한 분리된 접근법은 포즈를 탐색해야 하는 공간의 복잡도를 3차원(O(N3))에서 선형(O(N)) 수준으로 크게 줄여주어, 계산 효율성을 획기적으로 향상시키면서도 높은 정확도를 유지할 수 있다.40

이처럼 포즈 추론 단계에서는 전통적인 최적화의 정밀성과 딥러닝의 표현력을 결합하려는 시도가 두드러진다. 순수한 종단간 모델은 강력하지만 해석이 어렵고 계산 부담이 클 수 있으며, 고전적인 최적화는 해석 가능하고 안정적이지만 좋은 초기 대응 관계에 의존한다. 따라서 최근의 유망한 흐름은 딥러닝을 ‘프론트엔드(front-end)’로 사용하여 강건한 특징 추출과 데이터 연관을 수행하고, 여기서 얻은 신뢰도 높은 대응 관계를 고전적인 미분 가능한 최적화 ‘백엔드(back-end)’(예: 팩터 그래프)의 입력으로 사용하는 하이브리드 방식이다. 이러한 접근법은 딥러닝의 강력한 인식 능력과 기하학적 최적화의 수학적 엄밀함을 결합하여, 두 세계의 장점을 모두 취하는 효과적인 해결책을 제시한다.40

지금까지 논의된 이론적 원리들이 실제 세계에서 어떻게 구현되고 평가받으며 활용되는지를 살펴보는 것은 기술의 가치와 한계를 이해하는 데 필수적이다. 본 파트에서는 딥러닝 기반 시맨틱 위치 인식을 대표하는 최신 시스템들의 아키텍처를 구체적으로 분석하고, 이 기술의 성능을 다른 위치 인식 기술과 객관적으로 비교하기 위한 표준 벤치마크와 평가 지표를 소개한다. 마지막으로, 자율주행, 로보틱스, 증강현실 등 핵심 산업 분야에서 시맨틱 위치 인식이 어떻게 실질적인 문제를 해결하고 새로운 가능성을 열고 있는지를 구체적인 사례를 통해 조명한다.

이 섹션에서는 앞서 설명한 원리들이 어떻게 결합되어 실제 시스템으로 구현되는지를 보여주는 대표적인 아키텍처들을 분석한다. 각 시스템은 서로 다른 설계 철학과 목표를 가지고 있으며, 이를 통해 시맨틱 위치 인식 기술의 다양성을 이해할 수 있다.

BEV-Locator: 자율주행을 위한 대표적인 종단간(End-to-End) 시맨틱 위치 인식 시스템이다. 이 아키텍처의 핵심은 다중 시점 카메라 이미지를 입력받아 조감도(BEV) 특징으로 변환하는 BEV 인코더, 벡터화된 HD 맵의 차선, 정지선 등 시맨틱 요소를 구조적으로 인코딩하는 맵 인코더, 그리고 이 두 가지 이종(cross-modal) 특징을 연관시키기 위한 교차-모달 트랜스포머(Cross-model Transformer)로 구성된다.37 트랜스포머는 이미지 특징과 맵 특징 간의 유사도를 학습하여 최종적으로 차량의 포즈를 직접 회귀(regress)한다. BEV-Locator의 가장 큰 특징은 전체 과정을 데이터 주도(data-driven) 방식으로 해결한다는 점이다. 이는 복잡한 기하학적 모델링이나 수동 파라미터 튜닝 없이 대규모 데이터셋을 통해 위치 인식 능력을 학습하므로, 실제 차량에 배포하고 확장하기에 용이하다는 장점을 가진다.37
DynaSLAM / DS-SLAM: 이 시스템들은 전통적인 SLAM 프레임워크(주로 ORB-SLAM2) 위에 시맨틱 정보를 통합하여 동적 환경에서의 강건성을 높인 대표적인 모듈식(modular) 접근법이다.22 이 시스템들의 핵심 아이디어는 딥러닝 기반의 인스턴스 분할 네트워크(예: Mask R-CNN)를 사용하여 이미지 내에서 ‘사람’이나 ‘자동차’와 같이 움직일 가능성이 높은 객체들을 사전에 탐지하는 것이다.2 탐지된 동적 객체에 속한 특징점들은 SLAM의 추적(tracking) 및 맵핑(mapping) 과정에서 제외된다. 즉, 동적 요소가 시스템의 위치 추정을 오염시키기 전에 미리 걸러내는 것이다. 이러한 방식은 기존의 검증된 SLAM 시스템의 장점을 유지하면서, 시맨틱 모듈을 추가하여 특정 문제(동적 환경)를 해결하는 효과적인 전략을 보여준다.44
Kimera: 실시간 미터법-시맨틱(metric-semantic) SLAM을 위한 오픈소스 C++ 라이브러리로, 로보틱스 연구 커뮤니티에서 널리 사용된다. Kimera는 뛰어난 모듈식 설계를 특징으로 한다.32 주요 구성 요소는 (1) 빠르고 정확한 단기 모션 추정을 위한 시각-관성 주행 거리계(Visual-Inertial Odometry, VIO) 프론트엔드, (2) 루프 폐쇄를 통해 전역적인 궤적 일관성을 보장하는 포즈 그래프(Pose Graph) 최적화 백엔드, (3) VIO 출력을 기반으로 실시간으로 3D 메쉬를 생성하는 경량 메셔(mesher), 그리고 (4) 2D 이미지의 시맨틱 분할 결과를 3D 메쉬에 확률적으로 융합하여 밀도 높은(dense) 시맨틱 맵을 구축하는 모듈이다.29 Kimera는 특히 실내 로봇의 강건한 항법과 환경 이해를 위한 강력하고 잘 설계된 통합 시스템의 전형을 보여준다.
SemSegMap: LiDAR 센서 데이터에 기반한 위치 인식 시스템으로, 그래프 신경망(Graph Neural Network, GNN)을 활용하는 독특한 접근법을 취한다. 이 시스템은 먼저 LiDAR 포인트 클라우드를 의미론적 세그먼트(semantic segment)들로 분할한다. 각 세그먼트에 대해 회전 불변 특징(rotation-invariant feature)을 추출한 후, GNN을 사용하여 주변 세그먼트들과의 관계, 즉 이웃 문맥(neighborhood context) 정보를 통합하여 특징을 더욱 강화한다.34 최종적으로, 장소 인식(place recognition)은 이 강화된 특징들을 기반으로 수행된다. SemSegMap은 장면의 구조적 관계를 명시적으로 모델링하는 그래프 기반 표현이 특징이 부족한 환경에서도 얼마나 강건한 성능을 발휘할 수 있는지를 잘 보여주는 사례이다.

시스템 이름	핵심 방법론	주요 센서	맵 표현	주요 기여 / 해결 문제
BEV-Locator	종단간 트랜스포머	다중 시점 카메라	벡터화된 HD 맵	자율주행을 위한 데이터 주도 종단간 위치 인식
DynaSLAM	모듈식 동적 객체 제거	단안/스테레오 카메라 (+IMU)	시맨틱 Octo-Tree	동적 환경에서의 SLAM 강건성 향상
Kimera	VIO + 메쉬 융합	스테레오 카메라 + IMU	밀도 높은 시맨틱 메쉬	실시간 미터법-시맨틱 맵핑을 위한 통합 라이브러리
SemSegMap	그래프 기반 장소 인식	LiDAR + 카메라	분할된 포인트 클라우드	LiDAR 기반의 강건한 장소 인식 및 위치 추정
표 2: 주요 시맨틱 위치 인식 아키텍처 요약

시맨틱 위치 인식 기술의 우수성을 객관적으로 평가하기 위해서는 다른 대안 기술들과의 정량적, 정성적 비교가 필수적이다. 이 섹션에서는 표준화된 평가 지표와 벤치마크 데이터셋을 기반으로 시맨틱 위치 인식의 장단점을 명확히 분석한다.

SLAM 및 위치 인식 시스템의 정확도를 평가하기 위해 주로 사용되는 두 가지 표준 지표는 다음과 같다.

절대 궤적 오차 (Absolute Trajectory Error, ATE): 추정된 전체 궤적과 실제 궤적(Ground Truth) 간의 전역적인 차이를 측정하는 지표이다. 두 궤적을 최적으로 정렬한 후, 각 시간 스텝에서의 위치 차이를 계산하여 평균 제곱근 오차(RMSE)로 나타낸다.45 ATE는 SLAM 시스템의 전반적인 정확도와 일관성을 평가하는 데 적합하다.
상대 포즈 오차 (Relative Pose Error, RPE): 일정 시간 간격 동안의 상대적인 움직임(포즈 변화)을 실제 움직임과 비교하는 지표이다. 이는 주로 시스템의 단기적인 드리프트(drift)를 평가하는 데 사용되며, 주행 거리계(odometry) 성능을 측정하는 데 이상적이다.45

알고리즘의 성능은 어떤 환경에서 테스트되었는지에 따라 크게 달라지므로, 표준 벤치마크 데이터셋을 사용하는 것이 공정한 비교를 위해 중요하다.

KITTI: 자율주행 연구를 위한 선구적인 데이터셋으로, 스테레오 카메라, LiDAR, IMU, GPS 데이터를 포함한다.47 수많은 SLAM 및 주행 거리계 알고리즘이 이 데이터셋을 통해 개발되고 평가되었다. 그러나 센서가 현재 기준으로는 구식이며, 날씨나 계절 변화와 같은 다양한 환경 조건을 포함하지 않는다는 한계가 있다.46
nuScenes: KITTI의 한계를 극복하기 위해 등장한 현대적인 대규모 데이터셋이다. 360도 전방위를 커버하는 6개의 카메라, LiDAR, 5개의 레이더, IMU, GPS 등 완전한 센서 제품군을 제공하며, 복잡한 도심 환경에서의 풍부한 주석(annotation)을 포함한다.25 이는 현재 자율주행 알고리즘을 평가하는 가장 대표적인 벤치마크 중 하나로, 훨씬 더 복잡하고 현실적인 도전 과제를 제공한다.
4Seasons 및 장기 데이터셋: 이 데이터셋들은 장기적인 위치 인식(long-term localization) 성능을 평가하는 데 특화되어 있다. 동일한 경로를 여러 계절, 다양한 날씨(맑음, 비, 눈), 그리고 다른 시간대(낮, 밤)에 반복적으로 주행하여 수집되었다.35 이러한 극심한 외형 변화 조건 하에서는 순수 기하학적 방법들이 쉽게 실패하며, 시맨틱 정보의 중요성이 극명하게 드러난다.

데이터셋 이름	주요 센서	환경 유형	핵심 도전 과제	주석 유형
KITTI	스테레오 카메라, LiDAR, IMU	교외 주행	기초적인 주행 거리계/SLAM	3D 바운딩 박스
nuScenes	360° 카메라, LiDAR, 레이더, IMU	밀집 도심	복잡한 3D 객체 탐지 및 추적	3D 바운딩 박스, 시맨틱 분할
4Seasons	스테레오 카메라, IMU	도심, 시골, 고속도로 등	장기/계절 간 위치 인식	-

표 3: 주요 시각적 위치 인식 벤치마킹 데이터셋

이러한 지표와 데이터셋을 바탕으로 각 기술을 비교하면 다음과 같은 결론을 도출할 수 있다.

시맨틱 SLAM vs. 기하학적 SLAM: 동적 객체가 많은 환경에서 시맨틱 SLAM은 동적 요소를 효과적으로 제거함으로써 기하학적 SLAM에 비해 훨씬 높은 정확도(낮은 ATE)를 보인다.2 한 연구에서는 동적 시나리오에서 기존 ORB-SLAM3 대비 ATE RMSE가 92.58% 개선되었다고 보고하기도 했다.50 또한, 시맨틱 정보는 외형 변화에 더 강건하지만, 딥러닝 모델의 추론 과정 때문에 일반적으로 더 높은 계산 비용을 요구한다.28
시맨틱 위치 인식 vs. GPS/INS: GPS는 위성 신호가 약하거나 차단되는 ‘GNSS 음영 지역’(예: 도심 빌딩 숲, 터널, 실내)에서는 무용지물이다.4 관성 항법 장치(INS)는 외부의 보정 없이는 시간이 지남에 따라 오차가 누적되어 발산하는 드리프트 문제가 있다.14 시맨틱 위치 인식은 이러한 환경에서 강건하고 정밀한 위치 정보를 제공하는 핵심적인 대안 또는 보완 기술이다. 자율주행 시스템은 일반적으로 GPS/INS와 시맨틱 맵 매칭을 융합하여 모든 상황에서 끊김 없는 위치 인식을 달성한다.

기술	일반적인 정확도	동작 환경	신호 손실 강건성	외형 변화 강건성	동적 객체 강건성	인프라 의존성	계산 비용
GPS	미터(m) 수준	하늘이 열린 실외	낮음	높음	높음	위성	낮음
IMU/INS	시간에 따라 발산	모든 환경	높음	높음	높음	없음	낮음
기하학적 SLAM	센티미터(cm) 수준	실내/실외	높음	낮음	낮음	없음	중간~높음
시맨틱 SLAM	센티미터(cm) 수준	모든 환경	높음	높음	높음	없음	높음

표 1: 위치 인식 기술 비교 개요

시맨틱 위치 인식 기술은 더 이상 학문적 연구에만 머무르지 않고, 다양한 산업 분야에서 핵심적인 역할을 수행하며 실제 제품과 서비스의 가치를 창출하고 있다. 이 섹션에서는 자율주행, 모바일 로보틱스, 증강현실이라는 세 가지 주요 기술 분야에서 시맨틱 위치 인식이 어떻게 적용되고 있는지를 구체적인 사례를 통해 살펴본다.

자율주행 분야에서 시맨틱 위치 인식의 가장 중요한 활용 사례는 HD 맵(High-Definition Map) 기반 위치 인식이다. 레벨 3 이상의 자율주행을 위해서는 차량이 도로상에서 자신의 위치를 수 센티미터 수준의 오차로 파악해야 한다. 이는 차선을 정확하게 유지하고, 복잡한 교차로에서 올바른 경로를 선택하며, 교통 법규를 준수하는 데 필수적이다.33

작동 원리: 자율주행 차량은 사전에 정밀하게 구축된 HD 맵을 탑재한다. 이 HD 맵에는 차선, 도로 경계, 신호등, 표지판, 노면 표시 등 도로의 모든 시맨틱 요소들이 3D 벡터 데이터 형태로 저장되어 있다.33 주행 중 차량의 카메라나 LiDAR는 주변 환경을 인식하여 실시간으로 시맨틱 맵 요소(예: 차선)를 감지한다. 그 후, 차량은 실시간으로 감지된 시맨틱 요소들을 사전 구축된 HD 맵의 요소들과 매칭시켜 자신의 정확한 위치와 방향을 계산한다.26 이 과정이 바로 시맨틱 맵 매칭이다.
핵심 역할: GPS가 터널이나 도심 빌딩 숲에서 신호를 잃더라도, 시맨틱 맵 매칭은 끊김 없이 정밀한 위치 정보를 제공하여 안전한 주행을 보장한다. 이는 자율주행 시스템의 안전성과 신뢰성을 담보하는 최후의 보루와 같은 역할을 한다.

로봇 공학 분야에서 시맨틱 맵은 로봇이 단순한 이동 수단을 넘어 지능적인 작업을 수행하는 조력자로 거듭나게 하는 핵심 기술이다.

항법 및 작업 계획: 병원, 물류창고, 사무실과 같은 복잡한 실내 환경에서 서비스 로봇은 위상학적 시맨틱 맵(topological semantic map)을 사용하여 효율적으로 이동하고 작업을 수행한다.8 예를 들어, “204호 병실에 약품을 배달하라”는 명령을 받으면, 로봇은 ‘204호’라는 시맨틱 노드를 목표로 설정하고, 맵의 위상 정보를 이용해 최적의 경로(‘복도’ 노드를 거쳐 ‘엘리베이터’ 노드를 이용)를 계획한다.16 이는 정밀한 기하학적 경로 계획보다 훨씬 효율적이며, 인간의 사고방식과 유사하다.
인간-로봇 상호작용: 로봇이 환경을 의미론적으로 이해하면 인간과의 소통이 훨씬 자연스러워진다. 사용자가 “저기 소파 옆에 있는 테이블로 가”와 같이 객체나 장소를 참조하여 명령을 내릴 때, 로봇은 시맨틱 맵을 통해 ‘소파’와 ‘테이블’을 인식하고 그 관계를 파악하여 명령을 수행할 수 있다.13
건설 및 산업 자동화: 건설 현장이나 공장과 같은 비정형 환경에서도 시맨틱 맵은 유용하다. 로봇은 시맨틱 맵을 이용해 건설 현장을 측량하고, 특정 장비(예: 굴착기)를 식별하며, 위험 구역을 인지하여 안전하게 자율 작업을 수행할 수 있다.54

증강현실은 현실 세계에 가상의 디지털 정보를 덧씌워 보여주는 기술이다. 이를 위해서는 사용자의 디바이스(예: 스마트폰, AR 안경)가 현실 공간에서 자신의 정확한 위치와 방향을 실시간으로 파악해야 한다.

지속적이고 강건한 재인식 (Persistent and Robust Re-localization): AR 경험이 끊김 없이 이어지려면, 사용자가 앱을 껐다가 다시 켜거나, 다른 장소에 갔다가 돌아왔을 때 이전에 배치했던 가상 객체가 정확히 그 자리에 다시 나타나야 한다. 이를 ‘지속성(persistence)’이라 한다. 그러나 현실 세계는 시간이 지남에 따라 변한다. 가구가 재배치되거나, 조명이 바뀌거나, 계절이 바뀌어 실외 풍경이 달라질 수 있다. 이러한 극심한 외형 변화 속에서 정확한 위치를 다시 찾는(re-localize) 것은 매우 어려운 문제이다.5
시맨틱의 역할: 전통적인 특징점 기반 위치 인식은 이러한 변화에 매우 취약하다. 반면, 시맨틱 위치 인식은 ‘벽’, ‘문’, ‘창문’과 같은 더 추상적이고 불변하는 의미론적 구조물에 의존하기 때문에 훨씬 강건하다. AR 시스템은 시맨틱 정보를 이용해 “이곳은 이전에 내가 있었던 그 방이 맞다”고 높은 신뢰도로 판단하고, 가상 콘텐츠를 정확한 위치에 다시 고정시킬 수 있다. 이처럼 시맨틱 위치 인식은 일회성 경험을 넘어, 시간이 지나도 유지되는 ‘생애주기 AR(life-long AR)’ 경험을 구현하는 데 필수적인 기술이다.5

이처럼 다양한 응용 분야에서 알 수 있듯이, ‘시맨틱 맵’은 단일한 실체가 아니다. 그것은 하나의 설계 패턴이며, 그 구체적인 형태는 응용 분야의 요구에 따라 결정된다. 자율주행차는 정밀한 기하학적 표현이 중요한 벡터 맵을, 실내 서비스 로봇은 효율적인 고수준 계획이 중요한 위상학적 맵을, AR은 현실감 있는 콘텐츠 고정이 중요한 밀도 높은 3D 메쉬 맵을 필요로 한다.5 하지만 이 모든 다양한 형태의 맵들은 공통적으로 ‘시맨틱 계층’을 가짐으로써, 각 시스템이 자신의 세계 모델을 기반으로 추론하고 지능적으로 행동할 수 있는 공통 언어를 제공한다.

딥러닝 기반 시맨틱 위치 인식 기술은 자율 시스템의 인식 능력을 한 단계 끌어올렸지만, 여전히 해결해야 할 과제들이 남아있다. 동시에, 이 분야는 인공지능 기술의 최전선에서 새로운 연구 방향을 탐색하며 빠르게 발전하고 있다. 본 파트에서는 시맨틱 위치 인식 기술이 현재 직면한 주요 한계점들을 비판적으로 분석하고, 이를 극복하기 위한 최신 연구 동향과 미래의 기술적 지향점을 조망한다. 마지막으로, 본 보고서의 핵심적인 내용을 종합하여 이 기술이 미래 자율 인식 시스템의 발전에 있어 갖는 근본적인 중요성을 강조하며 결론을 맺는다.

시맨틱 위치 인식 분야는 활발한 연구가 진행되고 있지만, 실제 세계의 모든 복잡성을 다루기에는 아직 넘어야 할 산이 많다. 현재의 기술적 한계와 이를 극복하기 위한 새로운 연구 방향은 다음과 같다.

확장성 및 효율성 (Scalability and Efficiency): 현재의 딥러닝 기반 모델들은 높은 정확도를 달성하지만, 막대한 계산 자원을 필요로 한다. 이러한 모델들을 도시 전체와 같은 대규모 환경에 적용하고, 로봇이나 차량과 같이 자원이 제한된 임베디드 하드웨어에서 실시간으로 구동하는 것은 여전히 큰 도전 과제이다.3 특히, 고해상도 3D 맵을 생성하고 유지하는 데 따르는 높은 계산 비용은 상용화를 가로막는 주요 장벽 중 하나이다.52
‘롱테일’ 문제에 대한 강건성 (Robustness to the “Long Tail”): 딥러닝 모델은 학습 데이터에 포함된 객체나 상황에 대해서는 뛰어난 성능을 보이지만, 학습 과정에서 보지 못했던 새로운 객체(open-vocabulary)나 드물게 발생하는 예외적인 상황(예: 도로 위의 낙하물, 특이한 형태의 건물)에 대해서는 취약한 모습을 보인다.9 실제 세계는 예측 불가능한 ‘롱테일’ 이벤트로 가득 차 있으며, 이에 강건하게 대처하는 능력은 안전과 직결되는 중요한 문제이다.52
동적 환경의 복잡성 (Complexity of Dynamic Environments): 현재의 시스템들은 ‘자동차’나 ‘사람’과 같이 사전에 정의된 동적 객체는 어느 정도 처리할 수 있다. 그러나 예측하지 못한 움직임, 예를 들어 ‘정적 객체’로 분류된 의자가 옮겨지거나, 매우 혼잡한 군중 속에서 개별 객체를 분리하고 추적하는 것은 여전히 어려운 문제로 남아있다.6
데이터 및 주석 병목 현상 (Data and Annotation Bottleneck): 고성능 딥러닝 모델을 학습시키기 위해서는 방대한 양의 정확하게 레이블링된 데이터가 필요하다. 3D 공간에 시맨틱 정보를 주석으로 다는 작업은 수작업에 크게 의존하며, 이는 엄청난 시간과 비용을 요구한다.52 이러한 데이터 병목 현상은 새로운 모델의 개발과 검증을 더디게 만드는 요인이다.

이러한 도전 과제들을 해결하기 위해 연구 커뮤니티는 다음과 같은 새로운 기술적 프론티어를 개척하고 있다.

종단간 및 미분 가능한 아키텍처 (End-to-End and Differentiable Architectures): 인식, 매칭, 최적화 등 위치 인식의 전체 파이프라인을 하나의 미분 가능한(differentiable) 네트워크로 구성하려는 연구가 활발히 진행 중이다. 이를 통해 전체 시스템을 최종적인 위치 오차를 줄이는 방향으로 한 번에, 종단간으로 학습시킬 수 있어, 각 모듈을 따로 최적화할 때 발생하는 부조화를 해결하고 성능을 극대화할 수 있다.40
신경 방사 필드 (Neural Radiance Fields, NeRFs) 및 암시적 표현 (Implicit Representations): NeRF는 장면을 연속적인 함수로 표현하는 새로운 방식이다. 포인트 클라우드나 메쉬와 같은 명시적인(explicit) 기하학적 표현 대신, 특정 3D 좌표와 시점에서 관찰되는 색상과 밀도를 출력하는 신경망을 학습한다. 이를 시맨틱 정보까지 확장한 연구들은 매우 높은 충실도와 사실적인 렌더링이 가능한 시맨틱 맵을 생성할 수 있음을 보여주었다.28 암시적 표현은 기존 방식에 비해 저장 공간 효율성이 높고, 미지의 영역에 대한 보간(interpolation)이 자연스럽다는 장점이 있다.
그래프 신경망 (Graph Neural Networks, GNNs): GNN은 장면을 객체(노드)와 그들 간의 관계(엣지)로 구성된 그래프로 보고, 이 구조적 정보를 직접 학습하는 데 특화된 모델이다.34 GNN을 사용하면 장면의 관계형 구조를 명시적으로 모델링하여, 개별 객체의 외형뿐만 아니라 전체적인 맥락을 기반으로 추론할 수 있어 위치 인식의 강건성을 높일 수 있다.
파운데이션 모델과 체화된 AI (Foundation Models and Embodied AI): 최근 AI 분야의 가장 큰 흐름인 파운데이션 모델(Foundation Models)을 시맨틱 맵핑에 통합하려는 연구가 주목받고 있다. ViT, DINOv2, SAM(Segment Anything Model)과 같은 대규모 데이터로 사전 학습된 모델들은 뛰어난 일반화 성능과 제로샷(zero-shot) 인식 능력을 보여준다.28 이러한 모델들을 활용하면 학습 데이터에 없던 새로운 객체도 인식하는 ‘오픈 보캐뷸러리’ 맵핑이 가능해진다. 이는 로봇이 완전히 낯선 환경에 들어가 자연어 명령(“보육원에서 빨간색 줄무늬 얼룩말 장난감을 찾아와”)을 기반으로 스스로 탐색하고, 맵을 구축하며, 작업을 수행하는 ‘체화된 AI(Embodied AI)’의 비전을 실현하는 핵심 기술로 여겨진다.9

이러한 연구 동향들은 시맨틱 위치 인식의 궁극적인 목표가 변화하고 있음을 시사한다. 초기 단계의 목표가 사전 구축된 정적 맵을 기준으로 ‘위치를 찾는 것(map-based localization)’이었다면, 이제는 로봇이 스스로 환경을 탐험하며 ‘추론을 위한 맵을 구축하는 것(map-building for reasoning)’으로 진화하고 있다. 체화된 AI의 관점에서, 로봇은 미지의 환경에 던져졌을 때, 단순히 위치를 파악하는 것을 넘어 능동적인 탐색과 작업 계획을 위해 실시간으로 자신만의 시맨틱 맵을 구축하고 활용해야 한다.12 이 시나리오에서 맵은 더 이상 정적인 참조 데이터가 아니라, 모든 인지 기능의 중심에서 로봇의 행동을 이끄는 동적인 내부 세계 모델, 즉 ‘두뇌’의 역할을 하게 된다. 이것이 바로 시맨틱 맵핑이 지향하는 궁극적인 비전이다.

본 보고서는 딥러닝 기반 시맨틱 맵 매칭 기술에 대해 심도 있게 분석했다. 로봇의 환경 표현이 단순한 기하학적 재구성에서 의미론적 이해로 진화하는 패러다임의 전환을 시작으로, 시맨틱 맵의 구성 요소와 구축 생태계를 살펴보았다. 이어 딥러닝, 특히 트랜스포머와 BEV 표현이 어떻게 특징 인코딩, 교차 모달 연관, 포즈 추론의 핵심 메커니즘을 혁신했는지를 기술적으로 분석했다. 또한, 대표적인 시스템 아키텍처와 표준 벤치마크를 통해 이 기술의 현재 위치를 가늠하고, 자율주행, 로보틱스, 증강현실 등 주요 산업 분야에서의 핵심적인 역할을 조명했다. 마지막으로, 현재의 기술적 한계와 이를 극복하기 위한 미래 연구 방향을 제시했다.

이 모든 논의를 종합해 볼 때, 강건하고 의미를 이해하는 위치 인식 기술은 단순히 기존 기술의 점진적 개선이 아님을 알 수 있다. 이는 레벨 4/5의 완전 자율주행, 인간과 자연스럽게 협업하는 서비스 로봇, 그리고 현실과 가상이 매끄럽게 융합되는 증강현실 경험을 실현하기 위한 핵심 초석 기술(cornerstone technology)이다.

미래의 자율 시스템은 인간과 같이 주변 세계를 인식하고, 이해하며, 그에 기반하여 추론하는 능력에 그 성패가 달려있다. 딥러닝 기반 시맨틱 맵 매칭은 기계를 수동적인 항해자에서 능동적으로 이해하는 행위자(agent)로 변모시키는, 이 위대한 여정에서의 결정적인 도약이다. 앞으로 이 기술은 더욱 정교한 AI 모델과 결합하여, 우리가 상상하는 지능형 시스템의 미래를 현실로 만드는 데 가장 중요한 역할을 수행할 것이다.

Integrating Grid-Based and Topological Maps for Mobile Robot Navigation, accessed July 5, 2025, https://www.ri.cmu.edu/pub_files/pub1/thrun_sebastian_1996_8/thrun_sebastian_1996_8.pdf
DS-SLAM: A Semantic Visual SLAM towards Dynamic Environments - arXiv, accessed July 5, 2025, https://arxiv.org/pdf/1809.08379
Semantic Maps in Robotics - Number Analytics, accessed July 5, 2025, https://www.numberanalytics.com/blog/ultimate-guide-semantic-maps-robotics
Learning Visual Semantic Map-Matching for Loosely Multi-Sensor …, accessed July 5, 2025, https://www.researchgate.net/publication/360513716_Learning_Visual_Semantic_Map-Matching_for_Loosely_Multi-sensor_Fusion_Localization_of_Autonomous_Vehicles
Semantic Visual Localization - CVF Open Access, accessed July 5, 2025, https://openaccess.thecvf.com/content_cvpr_2018/papers/Schonberger_Semantic_Visual_Localization_CVPR_2018_paper.pdf
Semantic Visual Simultaneous Localization and Mapping: A Survey - arXiv, accessed July 5, 2025, https://arxiv.org/pdf/2209.06428
Semantic Visual Simultaneous Localization and Mapping: A Survey - arXiv, accessed July 5, 2025, https://arxiv.org/html/2209.06428v2
Collaborative Mobile Robotics for Semantic Mapping: A Survey - MDPI, accessed July 5, 2025, https://www.mdpi.com/2076-3417/12/20/10316
Semantic Mapping in Indoor Embodied AI – A Survey on Advances, Challenges, and Future Directions - arXiv, accessed July 5, 2025, https://arxiv.org/html/2501.05750v2
A Complete System for Automated Semantic–Geometric Mapping of Corrosion in Industrial Environments - MDPI, accessed July 5, 2025, https://www.mdpi.com/2673-4052/6/2/23
An Overview on Visual SLAM: From Tradition to Semantic - MDPI, accessed July 5, 2025, https://www.mdpi.com/2072-4292/14/13/3010
Semantic Mapping in Indoor Embodied AI – A Comprehensive Survey and Future Directions, accessed July 5, 2025, https://www.i-newcar.com/uploads/ueditor/20250123/2-250123113G2J3.pdf
Unlocking Robot Intelligence with Semantic Mapping, accessed July 5, 2025, https://www.numberanalytics.com/blog/semantic-mapping-robotics-step-by-step
A Review of Sensing Technologies for Indoor Autonomous Mobile Robots - PMC, accessed July 5, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10893033/
A Real-Time Semantic Map Production System for Indoor Robot Navigation - MDPI, accessed July 5, 2025, https://www.mdpi.com/1424-8220/24/20/6691
IntelliMove: Enhancing Robotic Planning with Semantic Mapping - arXiv, accessed July 5, 2025, https://arxiv.org/html/2410.14851v1
Topological and Semantic Map Generation for Mobile Robot Indoor Navigation, accessed July 5, 2025, https://www.researchgate.net/publication/355399905_Topological_and_Semantic_Map_Generation_for_Mobile_Robot_Indoor_Navigation

Topological mapping

Intro to Autonomous Robots Class Notes - Fiveable, accessed July 5, 2025, https://library.fiveable.me/introduction-autonomous-robots/unit-5/topological-mapping/study-guide/NHcsLzdKo8OBXUhZ

Topological Robotics Navigation - Number Analytics, accessed July 5, 2025, https://www.numberanalytics.com/blog/topological-robotics-navigation
Advancing Frontiers in SLAM: A Survey of Symbolic Representation and Human-Machine Teaming in Environmental Mapping - arXiv, accessed July 5, 2025, https://arxiv.org/html/2405.01398v1

Semantic Maps for Robotics - People

MIT CSAIL, accessed July 5, 2025, https://people.csail.mit.edu/gdk/iros-airob14/papers/Lang_finalSubmission_SemantiCmapsForRobots.pdf

Accurate Location in Dynamic Traffic Environment Using Semantic Information and Probabilistic Data Association, accessed July 5, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC9269809/
What is SLAM? A Beginner to Expert Guide - Kodifly, accessed July 5, 2025, https://kodifly.com/what-is-slam-a-beginner-to-expert-guide
Factor Graphs for Navigation Applications: A Tutorial, accessed July 5, 2025, https://navi.ion.org/content/71/3/navi.653
Scene planning - nuScenes, accessed July 5, 2025, https://www.nuscenes.org/nuscenes
Simultaneous Localization and Mapping (SLAM) for Autonomous Driving: Concept and Analysis - MDPI, accessed July 5, 2025, https://www.mdpi.com/2072-4292/15/4/1156
A semantic visual SLAM for highly dynamic scenes using Detectron2 - arXiv, accessed July 5, 2025, https://arxiv.org/pdf/2210.00278
Is Semantic SLAM Ready for Embedded Systems ? A Comparative Survey - arXiv, accessed July 5, 2025, https://arxiv.org/html/2505.12384v1
SMaNa: Semantic Mapping and Navigation Architecture for Autonomous Robots - SciTePress, accessed July 5, 2025, https://www.scitepress.org/Papers/2023/121928/121928.pdf
Semantic Map Partitioning in Indoor Environments using Regional Analysis - Georgia Tech, accessed July 5, 2025, https://repository.gatech.edu/bitstreams/f20b555a-e5c8-428a-bde8-1d56dffaf206/download
On the Overconfidence Problem in Semantic 3D Mapping - Intelligent Motion Lab, accessed July 5, 2025, https://motion.cs.illinois.edu/papers/ICRA2024_Marques_OverconfidenceSemanticMapping.pdf
Kimera: an Open-Source Library for Real-Time Metric-Semantic Localization and Mapping - MIT, accessed July 5, 2025, https://www.mit.edu/~arosinol/papers/Rosinol20icra-Kimera.pdf
High Definition Map Mapping and Update: A General Overview and Future Directions - arXiv, accessed July 5, 2025, https://arxiv.org/html/2409.09726v1

SemSegMap – 3D Segment-based Semantic Localization

Request PDF - ResearchGate, accessed July 5, 2025, https://www.researchgate.net/publication/357111212SemSegMap-_3D_Segment-based_Semantic_Localization

4Seasons: Benchmarking Visual SLAM and Long-Term Localization for Autonomous Driving in Challenging Conditions - arXiv, accessed July 5, 2025, https://arxiv.org/html/2301.01147v2
Global Semantic Localization from Abstract Ellipse-Ellipsoid Model and Object-Level Instance Topology - MDPI, accessed July 5, 2025, https://www.mdpi.com/2072-4292/16/22/4187
BEV-Locator: An End-to-end Visual Semantic Localization Network Using Multi-View Images, accessed July 5, 2025, https://www.researchgate.net/publication/365820516_BEV-Locator_An_End-to-end_Visual_Semantic_Localization_Network_Using_Multi-View_Images
CoBra: Complementary Branch Fusing Class and Semantic Knowledge for Robust Weakly Supervised Semantic Segmentation - arXiv, accessed July 5, 2025, https://arxiv.org/html/2403.08801v6
SLMSF-Net: A Semantic Localization and Multi-Scale Fusion Network for RGB-D Salient Object Detection - PMC - PubMed Central, accessed July 5, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10892948/
Efficient End-to-end Visual Localization for Autonomous Driving with Decoupled BEV Neural Matching - arXiv, accessed July 5, 2025, https://arxiv.org/pdf/2503.00862

[Literature Review] Advancing Ultra-Reliable 6G: Transformer and Semantic Localization Empowered Robust Beamforming in Millimeter-Wave Communications - Moonlight

AI Colleague for Research Papers, accessed July 5, 2025, https://www.themoonlight.io/en/review/advancing-ultra-reliable-6g-transformer-and-semantic-localization-empowered-robust-beamforming-in-millimeter-wave-communications

Active Semantic Localization with Graph Neural Embedding - arXiv, accessed July 5, 2025, https://arxiv.org/pdf/2305.06141
Regression-Based Camera Pose Estimation through Multi-Level Local Features and Global Features, accessed July 5, 2025, https://pdfs.semanticscholar.org/dd52/dde78896592ed4301aa2720a3ce325c4bd58.pdf
Object detection and tracking aided SLAM in image sequences for dynamic environment., accessed July 5, 2025, https://hosei.ecats-library.jp/da/repository/00026416/gradse_64_20R8105.pdf
A Benchmark for the Evaluation of RGB-D SLAM Systems - Computer Vision Group, accessed July 5, 2025, https://cvg.cit.tum.de/_media/spezial/bib/sturm12iros.pdf
VBR: A Vision Benchmark in Rome - arXiv, accessed July 5, 2025, https://arxiv.org/html/2404.11322v1
arXiv:2401.03846v2 [cs.CV] 27 May 2025, accessed July 5, 2025, https://arxiv.org/pdf/2401.03846
Quantitative comparison of 3D MOT performance on the KITTI dataset. Method sAMOTA↑ AMOTA↑ AMOTP↑ MOTA↑ MOTP↑ IDS↓ FRAG - ResearchGate, accessed July 5, 2025, https://www.researchgate.net/figure/Quantitative-comparison-of-3D-MOT-performance-on-the-KITTI-dataset-Method-sAMOTA-AMOTA_tbl1_343536561
Daily Papers - Hugging Face, accessed July 5, 2025, https://huggingface.co/papers?q=NuScenes-SpatialQA
GY-SLAM: A Dense Semantic SLAM System for Plant Factory Transport Robots - Preprints.org, accessed July 5, 2025, https://www.preprints.org/manuscript/202401.1603/v1
EMS-SLAM: Dynamic RGB-D SLAM with Semantic-Geometric Constraints for GNSS-Denied Environments - MDPI, accessed July 5, 2025, https://www.mdpi.com/2072-4292/17/10/1691
From SLAM to Situational Awareness: Challenges and Survey - PMC, accessed July 5, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10222985/
Generation of high definition map for accurate and robust localization - OAE Publishing Inc., accessed July 5, 2025, https://www.oaepublish.com/articles/ces.2022.43
Intuitive BIM-aided robotic navigation and assets localization with semantic user interfaces - Frontiers, accessed July 5, 2025, https://www.frontiersin.org/journals/robotics-and-ai/articles/10.3389/frobt.2025.1548684/epub
arXiv:2311.11016v3 [cs.RO] 28 Mar 2024, accessed July 5, 2025, https://arxiv.org/pdf/2311.11016