Booil Jung

시맨틱 SLAM에 대한 고찰

자율 시스템이 주변 환경을 인식하고 상호작용하는 방식은 지난 수십 년간 근본적인 변화를 겪었다. 초기 로보틱스 연구의 핵심 과제였던 동시적 위치 추정 및 지도 작성(Simultaneous Localization and Mapping, SLAM)은 순수한 기하학적 공간 인식의 문제를 해결하는 데 중점을 두었다. 그러나 진정한 자율성을 달성하기 위해서는 단순히 ‘어디에 있는가’를 아는 것을 넘어 ‘무엇이 있는가’를 이해하는 능력이 필수적이라는 인식이 확산되면서, 시맨틱 SLAM이라는 새로운 패러다임이 등장했다. 이 섹션에서는 전통적인 기하학적 SLAM의 원리와 본질적 한계를 재조명하고, 시맨틱 정보의 통합이 왜 필연적인 진화였는지를 논하며, 시맨틱 SLAM이 제공하는 핵심적인 이점들을 분석한다.

전통적인 SLAM은 미지의 환경에서 로봇이나 자율 에이전트가 자신의 위치와 방향(상태)을 추정함과 동시에 주변 환경의 지도를 구축하는 근본적인 문제를 다룬다 [1, 2]. 이는 본질적으로 “나는 어디에 있는가?”라는 질문에 답하기 위한 기술적 프레임워크다 [3]. SLAM 시스템은 일반적으로 두 가지 핵심 구성 요소로 나뉜다. 첫째, 센서 데이터를 처리하여 단기적인 움직임을 추정하는 프론트엔드(Front-end)와, 둘째, 누적된 오차를 보정하고 전역적으로 일관된 지도와 궤적을 생성하는 백엔드(Back-end)[1, 4].

초기 SLAM 연구는 확장 칼만 필터(EKF SLAM)와 같은 필터 기반 접근법이 주를 이루었으나, 계산 복잡도와 비선형성 문제로 인해 점차 그래프 기반 최적화 방법으로 대체되었다 [5, 6]. 그래프 SLAM, 특히 포즈 그래프 최적화(Pose-Graph Optimization)는 로봇의 궤적과 환경의 특징점(Landmark)을 그래프의 노드(Node)와 엣지(Edge)로 표현하고, 전체 그래프의 오차를 최소화하는 방식으로 전역 일관성을 확보한다 [5, 7]. 이러한 시스템에서 랜드마크는 주로 점(point), 선(line), 평면(plane)과 같은 기하학적 원시 요소(geometric primitives)로 정의된다 [8, 9].

이러한 기하학적 접근법은 정적인 환경에서 놀라운 수준의 정확도를 달성하며 자율 이동 기술의 초석을 다졌지만, 현실 세계의 복잡성과 동적인 특성에 직면하면서 명백한 한계에 부딪혔다.

첫째, 장면 이해의 부재(Lack of Scene Understanding)가 가장 근본적인 문제다. 전통적인 SLAM이 생성하는 지도는 기하학적으로는 정밀할 수 있으나 의미론적으로는 불모지와 같다 [10]. 지도는 벽과 장애물의 위치는 알려주지만, 그것이 ‘책상’인지 ‘의자’인지는 알려주지 않는다. 이러한 정보의 부재는 로봇이 “부엌 식탁에서 컵을 가져와”와 같이 인간 중심의 복잡한 임무를 수행하는 것을 원천적으로 불가능하게 만든다 [11].

둘째, 도전적인 환경에서의 취약성(Brittleness in Challenging Environments)이다. 전통적인 SLAM 알고리즘은 대부분 ‘정적 세계 가정(static world assumption)’에 기반한다 [12]. 그러나 현실 세계는 사람, 차량 등 움직이는 객체로 가득 차 있다. 이러한 동적 요소들은 정적인 랜드마크라는 가정을 위배하여 위치 추정의 심각한 오류를 유발하고 지도 오염의 원인이 된다 [3, 13, 14]. 또한, 특징이 거의 없는 벽이나 복도(low-texture areas) 또는 조명이 급격하게 변하는 환경에서도 안정적인 특징점을 추출하기 어려워 성능이 급격히 저하된다 [11, 13].

셋째, 데이터 연관(Data Association)의 어려움이다. 로봇이 이전에 방문했던 장소를 다시 인식하여 누적된 오차를 보정하는 루프 클로저(loop closure)는 SLAM의 정확도에 매우 중요하다. 그러나 서로 다른 장소가 시각적으로 유사해 보이는 ‘지각적 모호성(perceptual aliasing)’ 현상 때문에 순수 기하학적 특징만으로는 강건한 루프 클로저를 달성하기 어렵다 [14].

이러한 한계들은 로보틱스가 단순한 공간 이동(navigation)을 넘어 환경과의 지능적인 상호작용(interaction)으로 나아가기 위해 반드시 넘어야 할 벽이었다. 기하학적 정보만으로는 이 벽을 넘을 수 없다는 것이 명백해지면서, 시맨틱 정보의 통합은 선택이 아닌 필연이 되었다.

시맨틱 SLAM은 전통적인 SLAM 파이프라인에 객체 종류, 속성, 기능과 같은 고수준의 의미론적 정보(semantic information)를 통합하는 진화된 패러다임이다 [3, 12, 15]. 이는 단순히 지도를 만드는 것을 넘어, 기계가 읽고 이해할 수 있는 풍부한 ‘세계 모델(world model)’을 구축하는 것을 목표로 한다 [16]. 즉, 순수한 기하학적 표현에서 미터법 기반의 의미론적 이해(metric-semantic understanding)로의 전환을 의미한다 [17].

시맨틱 SLAM의 핵심 가치는 지도를 위치 추정을 위한 도구에서 지능적인 상호작용, 의사결정, 그리고 인간-로봇 협업을 가능하게 하는 ‘지식 베이스(knowledge base)’로 격상시키는 데 있다 [11, 18, 19]. 로봇의 공간에 대한 인지적 표현 능력을 향상시켜 인간과 유사한 방식으로 환경을 이해하고 소통할 수 있는 기반을 제공하는 것이다 [20].

시맨틱 정보의 통합은 전통적 SLAM의 한계를 직접적으로 해결하며 다음과 같은 핵심적인 이점을 제공한다.

아래의 표는 전통적인 SLAM과 시맨틱 SLAM의 핵심적인 차이점을 요약하여 보여준다.

특징 전통적 SLAM 시맨틱 SLAM
지도 표현 점, 선, 평면 기반의 기하학적 지도 (예: 점 구름, 점유 격자 지도) 객체, 장소, 관계를 포함하는 의미론적 지도 (예: 시맨틱 3D 메시, 장면 그래프)
랜드마크 유형 기하학적 특징점 (예: ORB, SIFT) 의미론적 객체 (예: 의자, 책상) 또는 장소 (예: 부엌, 복도)
동적 환경 처리 동적 요소를 노이즈 또는 이상치로 간주하여 성능 저하 발생 동적 객체를 명시적으로 탐지하고 분리하여 강건성 확보
데이터 연관 기하학적 외형에 의존하여 지각적 모호성에 취약 객체의 의미론적 정체성을 활용하여 강건하고 신뢰성 높은 연관 수행
수행 가능 임무 위치 추정, 경로 계획, 장애물 회피 자연어 명령 이해, 객체 조작, 인간-로봇 상호작용 등 고수준 임무

시맨틱 SLAM이 어떻게 작동하는지를 이해하기 위해서는 그 구성 요소와 아키텍처, 그리고 이를 가능하게 하는 핵심 기술인 딥러닝과의 공생 관계를 깊이 있게 분석해야 한다. 이 섹션에서는 시맨틱 SLAM 파이프라인의 각 단계를 해부하고, 딥러닝이 통합되는 다양한 방식을 체계적으로 분류한다. 또한, 현대 시맨틱 SLAM을 대표하는 세 가지 주요 아키텍처(기하학적, NeRF, 3D 가우시안 스플래팅)를 비교 분석하며, 특히 실제 적용의 핵심 제약 조건인 임베디드 시스템에서의 성능과 한계를 고찰한다.

시맨틱 SLAM 파이프라인은 전통적인 SLAM 구조를 기반으로 하되, 각 단계에 의미론적 정보를 유기적으로 통합하는 방식으로 구성된다 [3, 15].

딥러닝 기술을 시각 SLAM(VSLAM)에 통합하는 방식은 그 깊이와 역할에 따라 세 가지 주요 패턴으로 분류할 수 있다 [24]. 이 분류는 시맨틱 SLAM 기술의 발전 과정을 이해하는 중요한 틀을 제공한다.

이 세 가지 통합 패턴은 전통적인 기하학적 방법에 대한 신뢰도와 학습 기반 표현에 대한 의존도 사이의 스펙트럼을 형성한다. 현재 ‘보조 모듈 추가’ 방식이 가장 널리 사용되는 것은, ORB-SLAM과 같은 기하학적 백엔드의 검증된 강건성을 유지하면서 딥러닝의 강력한 인식 능력을 선택적으로 활용하는 것이 현실적으로 가장 안정적이고 효과적인 전략임을 시사한다.

최근 시맨틱 SLAM 연구는 장면을 표현하는 방식에 따라 세 가지 주요 아키텍처로 나뉜다. 이들의 비교는 특히 자율 로봇 및 AR 기기와 같은 임베디드 시스템에서의 실용성을 평가하는 데 매우 중요하다 [18, 26].

NeRF와 3DGS의 등장은 SLAM 시스템의 목표 결과물이 변화하고 있음을 시사한다. 이제 목표는 단순히 위치 추정을 위한 기능적 지도를 넘어, 환경의 고품질 ‘디지털 트윈(digital twin)’을 생성하는 것으로 확장되고 있다. 그러나 이는 최첨단 연구와 실제 임베디드 응용 사이에 ‘컴퓨팅 격차(compute chasm)’를 만들어냈으며, 이 격차를 해소하는 것이 모델 최적화 및 하드웨어-알고리즘 공동 설계 분야의 주요 연구 동력이 되고 있다.

아키텍처 기본 표현 방식 지도 품질 (밀도/사실감) 계산 비용 (훈련/추론) 임베디드 시스템 적합성 대표 시스템
시맨틱 기하학적 특징점, 메시, 복셀 낮음-중간 낮음 높음 (실시간 가능) ORB-SLAM3 기반 시스템, DS-SLAM
시맨틱 NeRF 신경망 (MLP) 매우 높음 (사진 수준) 매우 높음 매우 낮음 (실시간 불가) iMAP, DNS-SLAM
시맨틱 3DGS 3D 가우시안 집합 높음 (사진 수준) 높음 낮음 (실시간 어려움) SGS-SLAM, SemGauss-SLAM

시맨틱 SLAM 시스템의 성능과 특성은 어떤 센서로 데이터를 수집하고, 수집된 정보를 어떤 구조로 지도에 표현하는지에 따라 크게 달라진다. 이 섹션에서는 시맨틱 SLAM에 사용되는 주요 센서들의 원리와 장단점을 비교하고, 의미론적 세계 모델을 구축하는 데 사용되는 다양한 지도 표현 방식들을 추상화 수준에 따라 분석한다. 이를 통해 센서 선택이 지도 구축 방식과 시스템의 전반적인 능력에 미치는 영향을 탐구한다.

SLAM 시스템의 ‘눈’ 역할을 하는 센서는 환경 정보를 수집하는 첫 단계로, 각 센서는 고유한 특성을 지닌다 [4, 13].

수집된 시맨틱 정보는 지도 내에서 다양한 형태로 구조화되어 저장된다. 이러한 지도 표현 방식은 구체적인 기하학적 표현에서부터 추상적인 관계 표현에 이르기까지 계층적인 구조를 보인다. 이는 로봇의 인지 능력이 단순한 객체 라벨링에서 복잡한 공간 추론으로 발전하는 과정을 반영한다.

이러한 지도 표현 방식의 계층적 발전은 시맨틱 SLAM의 궁극적인 목표가 단순히 기하학적 지도를 라벨링하는 것을 넘어, 인간의 공간 인지 방식과 유사한 구조화된 관계형 지식 베이스를 구축하는 데 있음을 보여준다.

센서 유형 원리 장점 단점 주요 응용 분야
단안 카메라 움직임을 통한 3D 구조 복원 (SfM) 저비용, 소형, 범용성 척도 모호성, 초기화 필요 모바일 AR, 저가형 로봇
스테레오 카메라 양안 시차를 이용한 삼각 측량 척도 문제 해결, 즉각적 깊이 획득 제한된 깊이 범위, 높은 연산량, 복잡한 보정 로봇 내비게이션, 드론
RGB-D 카메라 능동적 광원(구조광/ToF)을 이용한 거리 측정 밀집 깊이 정보 직접 제공, 낮은 연산량 짧은 측정 거리, 실외 취약성 실내 로봇, 3D 스캐닝
라이다(LiDAR) 레이저 펄스의 비행시간 측정(ToF) 고정밀, 조명 불변성, 장거리 측정 고비용, 색상/질감 정보 부재 자율주행차, 고정밀 매핑
시각-관성 융합 카메라와 IMU 데이터의 강결합 동적 상황 및 특징 부족 환경에서 강건성 확보 센서 동기화 및 보정의 복잡성 드론, 모바일 로봇, AR/VR

이전 섹션들에서 논의된 이론적 개념들은 실제 시스템으로 구현될 때 그 가치와 한계가 명확해진다. 이 섹션에서는 시맨틱 SLAM 분야에 큰 영향을 미친 대표적인 오픈소스 시스템들을 심층적으로 분석한다. 이를 통해 이론이 실제 코드와 아키텍처로 어떻게 구현되는지, 그리고 실제 환경에서 어떤 성능을 보이는지를 구체적으로 살펴본다.

ORB-SLAM 계열은 시각 SLAM 분야에서 가장 성공적이고 널리 사용되는 오픈소스 시스템 중 하나로 평가받는다 [14, 18]. 이 시스템의 핵심은 이름에서 알 수 있듯이 ORB(Oriented FAST and Rotated BRIEF) 특징점을 사용한다는 점이다. 또한, 추적(Tracking), 지역 지도 작성(Local Mapping), 루프 클로저(Loop Closing)의 세 가지 주요 작업을 병렬로 처리하는 스레드 기반 아키텍처를 채택하여 실시간 성능과 정확성을 동시에 달성했다 [33, 38].

ORB-SLAM2는 단안, 스테레오, RGB-D 카메라를 모두 지원하며 높은 강건성을 보여주었고, 후속 버전인 ORB-SLAM3는 여기에 다중 지도 관리 기능과 시각-관성 센서의 강결합(tightly-integrated) 방식을 추가하여 성능을 한 단계 더 끌어올렸다 [33].

ORB-SLAM이 시맨틱 SLAM 연구의 기반 플랫폼으로 널리 채택된 이유는 명확하다. 첫째, 특징점 기반 방식은 의미론적 정보를 특정 랜드마크(ORB 특징점)에 연관시키기 용이한 구조를 제공한다. 둘째, 모듈화된 오픈소스 코드베이스는 연구자들이 새로운 기능을 추가하거나 기존 모듈을 수정하기에 매우 편리한 환경을 제공한다 [39]. 이로 인해 수많은 시맨틱 SLAM 연구들이 ORB-SLAM을 기반으로 파생되었다.

Kimera는 처음부터 미터법-시맨틱 SLAM을 목표로 설계된 포괄적인 오픈소스 C++ 라이브러리다 [17, 40]. ORB-SLAM과 같은 기존 시스템들이 기하학적 재구성에 집중한 것과 달리, Kimera는 밀집 3D 메시 재구성과 의미론적 라벨링을 시스템의 핵심 기능으로 통합했다는 점에서 차별화된다 [17].

Kimera의 가장 큰 특징은 고도로 모듈화된 아키텍처에 있다. 시스템은 네 개의 핵심 모듈로 구성되며, 각 모듈은 독립적으로 실행되거나 조합하여 사용할 수 있다 [17, 41]:

Kimera의 주요 공헌은 기하학적 정보와 의미론적 정보를 실시간으로 긴밀하게 통합하는 응집력 있는 단일 라이브러리를 제공했다는 점이다 [17]. 이를 통해 연구자들은 VIO, SLAM, 3D 재구성 등 다양한 분야에서 자신의 아이디어를 신속하게 프로토타이핑하고 벤치마킹할 수 있는 강력한 플랫폼을 갖게 되었다. 이후 Kimera2로의 발전과 다중 로봇 시스템을 지원하는 Kimera-Multi의 등장은 Kimera의 강건성과 확장성을 다시 한번 입증했다 [42, 43].

시맨틱 정보의 가장 중요한 활용 사례 중 하나는 동적 환경에서의 SLAM 성능을 개선하는 것이다. 전통적인 SLAM은 움직이는 객체 위의 랜드마크를 정적인 것으로 오인하여 추적에 실패하거나 지도를 오염시키는 문제를 겪는다 [14, 44]. 시맨틱 SLAM은 이를 해결하기 위한 효과적인 해법을 제시한다.

이러한 시스템들의 발전 과정은 시맨틱 SLAM 분야의 성숙도를 보여준다. 초기에는 YOLO+ORB-SLAM처럼 기존의 강력한 기하학적 코어에 시맨틱 기능을 ‘추가’하는 방식이 주를 이루었다면, Kimera와 같은 시스템은 아키텍처 설계 단계부터 시맨틱 정보를 ‘내재적으로 통합’하는 방향으로 나아가고 있다. 이는 의미론적 정보가 더 이상 부가 기능이 아닌, 시스템 설계의 핵심 요소, 즉 ‘일급 시민(first-class citizen)’으로 자리 잡고 있음을 의미한다.

시스템명 기반 SLAM 알고리즘 시맨틱 방법 핵심 기여 및 특징 강점 한계
DS-SLAM ORB-SLAM2 SegNet (시맨틱 분할) 동적 환경에서의 강건성 향상을 위한 최초의 완전한 시맨틱 SLAM 시스템 중 하나 동적 객체 특징점 제거를 통한 정확도 향상 SegNet의 분할 성능과 속도에 의존
Kimera 자체 VIO 및 포즈 그래프 딥러닝 기반 2D 시맨틱 레이블 기하학, 의미론, 메시 생성을 통합한 모듈형 실시간 프레임워크 고도로 통합되고 유연한 아키텍처, 밀집 시맨틱 메시 생성 복잡한 시스템 구조, 높은 CPU 자원 사용
YOLOv8-ORB-SLAM3 ORB-SLAM3 YOLOv8 (객체 탐지) 최신 객체 탐지기를 활용하여 기존 SOTA SLAM의 동적 환경 성능을 실용적으로 개선 구현이 비교적 간단하고 효과적임 객체 탐지 성능에 의존, 탐지되지 않는 동적 객체에는 취약
SEO-SLAM 팩터 그래프 기반 MLLM (멀티모달 LLM) 이종 MLLM 에이전트를 비동기적으로 활용하여 개방형 어휘 기반의 시맨틱 레이블링 및 맵 정제 유사 객체 구별 능력 탁월, 장면 변화에 적응 가능 MLLM 추론에 따른 잠재적 지연 시간, 높은 계산 비용

시맨틱 SLAM 기술은 이론적 탐구를 넘어 다양한 산업 분야에서 실질적인 가치를 창출하며 그 영향력을 확대하고 있다. 자율주행차부터 서비스 로봇, 증강현실에 이르기까지, 기계가 인간의 환경을 더 깊이 이해하게 되면서 이전에는 불가능했던 새로운 응용 서비스들이 가능해지고 있다. 이 섹션에서는 시맨틱 SLAM이 핵심적인 역할을 하는 주요 응용 분야를 살펴보고, 기술의 상업화 현황과 시장 성장성을 분석하여 그 경제적 중요성을 조명한다.

자율주행 기술에서 SLAM은 GPS 신호가 약하거나 없는 도심의 빌딩 숲, 터널, 실내 주차장 등에서 차량의 위치를 정밀하게 추정하는 핵심 기술이다 [45, 46]. 전통적인 기하학적 SLAM이 장애물 회피에 중점을 둔다면, 시맨틱 SLAM은 한 걸음 더 나아가 도로 표지판, 차선, 신호등, 보행자, 다른 차량 등을 인식하고 그 의미를 이해함으로써 상황에 맞는 주행 결정을 내릴 수 있게 한다 [6, 47].

특히 자동 발렛 주차(Automated Valet Parking, AVP)는 시맨틱 SLAM의 가치가 극대화되는 대표적인 응용 사례다 [48]. 주차장은 기둥이나 벽면의 형태가 반복적이고 특징점이 부족하여 전통적인 SLAM이 어려움을 겪는 대표적인 환경이다. 반면, 시맨틱 SLAM은 주차선, 주행 유도 화살표, 주차 가능 공간 표시, 각종 표지판과 같은 풍부한 의미론적 랜드마크를 활용한다. 이를 통해 반복적인 구조 속에서도 차량의 위치를 강건하고 정밀하게 추정하며, 복잡한 주차 기동을 성공적으로 수행할 수 있는 기반을 마련한다 [48].

가정, 병원, 물류창고 등에서 활용되는 서비스 로봇이 진정으로 유용해지기 위해서는 인간 및 주변 환경과 의미 있는 방식으로 상호작용할 수 있어야 한다 [2, 22]. 단순히 장애물을 피해 움직이는 것을 넘어, 인간의 지시를 이해하고 복잡한 작업을 수행해야 하기 때문이다.

이때 시맨틱 SLAM은 인간과 로봇 간의 ‘협력적 인지 작업 공간(collaborative cognitive workspace)’을 구축하는 토대를 제공한다 [23, 49]. 시맨틱 지도는 인간과 로봇이 공유하는 일종의 ‘공통된 이해의 장’ 역할을 한다. 예를 들어, 사용자가 “소파 근처에 엎질러진 것 좀 치워줘”라고 명령하면, 로봇은 자신의 시맨틱 지도에서 ‘소파’라는 객체의 위치를 인지하고 해당 위치로 이동하여 작업을 수행할 수 있다 [50]. 이처럼 시맨틱 맵은 자연어 명령 이해, 상황인지 기반 행동 결정 등 고도화된 인간-로봇 상호작용(Human-Robot Interaction, HRI)을 가능하게 하는 핵심 요소다 [21, 22].

마커(marker) 없이 실제 환경에 가상 객체를 자연스럽게 증강시키는 마커리스 AR의 구현은 미지의 환경에서 사용자 기기의 위치와 자세를 안정적으로 추적하는 SLAM 기술에 크게 의존한다 [51, 52]. 그러나 단순히 가상 객체를 현실 공간에 띄우는 것만으로는 진정한 몰입감을 제공하기에 부족하다.

시맨틱 SLAM은 AR 애플리케이션이 주변 환경을 ‘이해’하게 함으로써 이 문제를 해결한다. 예를 들어, AR 게임 속 가상 캐릭터가 실제 소파 뒤에 숨거나 실제 테이블 위로 점프하는 등 현실 세계의 객체와 상호작용하며 보다 현실감 있는 움직임을 보일 수 있다 [51]. 이처럼 시맨틱 정보는 가상과 현실의 상호작용을 한 차원 높은 수준으로 끌어올려, AR을 단순한 시각적 효과를 넘어 강력한 상황인지 컴퓨팅 플랫폼으로 발전시키는 핵심 동력이 된다 [53].

EnvSLAM은 이러한 비전을 현실화한 구체적인 사례다. 스마트폰과 같은 모바일 기기에서의 실시간 AR 구동을 목표로 개발된 이 시스템은 정확성과 효율성의 균형을 맞추어, 차세대 AR 앱에 필요한 의미론적 맥락을 제공한다 [51].

SLAM 기술 시장은 학술 연구 단계를 넘어 폭발적인 성장을 거듭하며 핵심 기술 산업으로 자리매김하고 있다. 복수의 시장 분석 보고서에 따르면, 전 세계 SLAM 기술 시장은 2023년 약 4억 7,845만 달러에서 2032년 78억 달러 규모로 성장할 것으로 예측되며, 연평균 성장률(CAGR)은 36.43%에 달한다 [54, 55]. 또 다른 보고서는 2024년 9억 7,771만 달러에서 2033년 285억 달러로 성장(CAGR 44.3%)할 것으로 전망하는 등, 매우 높은 성장 잠재력을 공통적으로 시사하고 있다 [56].

이러한 성장은 다양한 응용 분야에서의 수요 증가에 기인한다. 2023년 기준, 로보틱스 분야가 전체 시장의 39.6%를 차지하며 가장 큰 비중을 보였고, 이는 물류 자동화 및 서비스 로봇 시장의 확대와 직결된다 [54, 55]. 한편, 향후 가장 높은 성장률이 기대되는 분야는 AR/VR로, 몰입형 경험에 대한 수요 증가가 SLAM 기술의 채택을 가속화할 것으로 전망된다 [54].

이러한 시장 성장 속에서 기술 생태계 또한 성숙하고 있다. 구글, 애플, 마이크로소프트, 아마존과 같은 거대 기술 기업들은 자사의 핵심 플랫폼(AR, 로보틱스)에 SLAM 기술을 내재화하기 위해 막대한 투자를 하고 있다 [54, 57]. 동시에, SLAM 기술을 전문으로 하는 스타트업들이 등장하여 특정 산업 분야에 최적화된 솔루션을 제공하며 시장을 공략하고 있다.

이처럼 거대 기업의 플랫폼 통합과 전문 스타트업의 솔루션 제공이라는 이원적 구조는 SLAM 기술이 더 이상 틈새 기술이 아닌, 데이터베이스나 운영체제처럼 기술 스택의 근간을 이루는 핵심 기술로 자리 잡고 있음을 보여준다.

시맨틱 SLAM 기술이 널리 보급되고 책임감 있게 사용되기 위해서는 해결해야 할 기술적, 윤리적, 사회적 과제들이 산적해 있다. 이 섹션에서는 기술의 강건한 실제 환경 적용을 가로막는 기술적 난제들을 분석하고, 개인의 가장 사적인 공간을 매핑하는 과정에서 발생하는 프라이버시 딜레마를 심도 있게 다룬다. 마지막으로, 단순한 충돌 회피를 넘어 ‘의미론적 안전성’이라는 새로운 개념을 통해 로봇의 안전 기준을 어떻게 재정립해야 하는지 논한다.

시맨틱 SLAM 기술의 발전은 심각한 프라이버시 문제를 야기한다. 특히 로봇 청소기와 같은 소비자용 로봇은 우리의 가장 사적인 공간인 집 안을 돌아다니며 상세한 지도를 생성한다.

전통적인 로봇 안전의 개념은 주로 ‘충돌 회피’, 즉 물리적으로 장애물과 부딪히지 않는 것에 초점을 맞추어 왔다. 이는 로봇 안전의 필요조건이지만, 인간과 함께 생활하고 작업하는 환경에서는 결코 충분조건이 될 수 없다 [73].

이러한 시맨틱 안전성은 객체의 속성과 잠재적 상호작용에 대한 추론을 기반으로 하므로, 훨씬 더 미묘하고 인간의 안전 기준에 부합하는 로봇 행동을 구현할 수 있게 한다 [74]. 시맨틱 SLAM의 성공은 역설적으로 그 기술이 생성하는 지도의 상세함과 풍부함 때문에 새로운 윤리적, 사회적 책임을 동반한다. 지도가 더 정교해질수록, 그 지도를 활용한 혜택과 오용의 가능성 모두 커지기 때문이다. 따라서 ‘시맨틱 안전 필터’와 같은 기술은 선택 사항이 아닌, 인간 중심 환경에서 작동하는 모든 지능형 로봇 시스템의 필수 구성 요소가 되어야 한다.

시맨틱 SLAM 분야는 인공지능의 다른 분야들과 융합하며 빠르게 발전하고 있다. 이 섹션에서는 현재 연구의 최전선에 있는 네 가지 핵심적인 미래 방향-파운데이션 모델의 통합, 평생 학습 SLAM, 체화된 AI, 그리고 강화 학습 기반의 능동적 SLAM-을 탐구한다. 이를 통해 기술이 나아갈 방향을 예측하고, 차세대 지능형 자율 시스템의 청사진을 제시한다.

이러한 미래 연구 방향들은 한때 개별적으로 발전해 온 AI 분야들(로보틱스, 컴퓨터 비전, 자연어 처리, 강화 학습)이 ‘시맨틱 SLAM’이라는 공통의 문제 아래 융합되고 있음을 보여준다. 현대의 시맨틱 SLAM 연구는 더 이상 로보틱스의 하위 분야가 아니라, ‘에이전트가 어떻게 세상을 인식하고 상호작용하며 내적 모델을 구축하는가’라는 인공 일반 지능(AGI)의 근본적인 질문에 답하기 위한 핵심적인 장이 되고 있다.

본 보고서는 시맨틱 SLAM 기술의 근원적인 필요성에서부터 핵심 아키텍처, 대표적인 시스템, 다양한 응용 분야, 그리고 미래 연구 방향에 이르기까지 다각적인 고찰을 수행했다. 전통적인 기하학적 SLAM이 ‘어디에 있는가’의 문제를 해결하며 자율 시스템의 기반을 닦았다면, 시맨틱 SLAM은 ‘무엇이 있는가’를 이해하게 함으로써 시스템이 환경과 진정으로 상호작용하고 인간과 협력할 수 있는 새로운 차원의 문을 열었다. 분석을 통해 도출된 핵심적인 결론과 향후 연구 및 전략적 개발을 위한 제언은 다음과 같다.

본 분석을 바탕으로 학계와 산업계가 나아가야 할 방향에 대해 다음과 같이 제언한다.

궁극적으로 시맨틱 SLAM 기술이 지향하는 목표는 우리가 살아가는 환경에 대한 지속적이고, 질의 가능하며, 평생 학습하는 ‘시맨틱 디지털 트윈’을 구축하는 것이다. 이러한 디지털 트윈은 차세대 자율 로봇, 지능형 AR, 그리고 스마트 환경을 구현하는 핵심적인 인프라가 될 것이며, 이를 향한 학계와 산업계의 협력적 노력이 미래 기술의 지형을 결정할 것이다.

  1. SLAM-past-present-future.pdf - cs.wisc.edu, accessed July 18, 2025, https://pages.cs.wisc.edu/~jphanna/teaching/25spring_cs639/resources/SLAM-past-present-future.pdf
  2. SLAM 기술: 공간 지능의 핵심 동력, accessed July 18, 2025, https://brunch.co.kr/@donghyungshin/148
  3. Semantic Visual Simultaneous Localization and Mapping: A Survey - ResearchGate, accessed July 18, 2025, https://www.researchgate.net/publication/391793050_Semantic_Visual_Simultaneous_Localization_and_Mapping_A_Survey
  4. Lidar Slam And Visual Slam Complete Introduction and Comparison, accessed July 18, 2025, https://www.altversebot.com/blog/2024/11/21/lidar-slam-and-visual-slam-complete-introduction-and-comparison/
  5. The Types of SLAM Algorithms - Medium, accessed July 18, 2025, https://medium.com/@nahmed3536/the-types-of-slam-algorithms-356196937e3d
  6. A Review of SLAM Techniques and Security in Autonomous Driving - Advanced Robotics and Automation (ARA) Laboratory - University of Nevada, Reno, accessed July 18, 2025, https://ara.cse.unr.edu/wp-content/uploads/2014/12/Singandhupe_La_IRC18.pdf
  7. A comprehensive survey of advanced SLAM techniques - E3S Web of Conferences, accessed July 18, 2025, https://www.e3s-conferences.org/articles/e3sconf/pdf/2024/71/e3sconf_wfces2024_05004.pdf
  8. Semantic SLAM - velog, accessed July 18, 2025, https://velog.io/@thkweon/Semantic-SLAM
  9. Unifying Geometry, Semantics, and Data Association in SLAM - Existential Robotics Laboratory, accessed July 18, 2025, https://existentialrobotics.org/pages/semantic-slam.html
  10. slambook-ko/ch14.md at master - GitHub, accessed July 18, 2025, https://github.com/slam-research-group-kr/slambook-ko/blob/master/ch14.md
  11. An Overview on Visual SLAM: From Tradition to Semantic - MDPI, accessed July 18, 2025, https://www.mdpi.com/2072-4292/14/13/3010
  12. Is Semantic SLAM Ready for Embedded Systems ? A Comparative Survey - arXiv, accessed July 18, 2025, https://arxiv.org/html/2505.12384v1
  13. Semantic Visual Simultaneous Localization and Mapping: A Survey - arXiv, accessed July 18, 2025, https://arxiv.org/pdf/2209.06428
  14. A Comparative Review on Enhancing Visual Simultaneous Localization and Mapping with Deep Semantic Segmentation - PubMed Central, accessed July 18, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11174785/
  15. Semantic Visual Simultaneous Localization and Mapping: A Survey - Bohrium, accessed July 18, 2025, https://www.bohrium.com/paper-details/semantic-visual-simultaneous-localization-and-mapping-a-survey/1136593196445335585-3813
  16. SemanticSLAM.ai, accessed July 18, 2025, http://www.semanticslam.ai/
  17. Kimera: an Open-Source Library for Real-Time Metric … - MIT, accessed July 18, 2025, https://www.mit.edu/~arosinol/papers/Rosinol20icra-Kimera.pdf
  18. [Literature Review] Is Semantic SLAM Ready for Embedded …, accessed July 18, 2025, https://www.themoonlight.io/en/review/is-semantic-slam-ready-for-embedded-systems-a-comparative-survey
  19. Enhancing Mobile Robot Navigation Through Semantic SLAM Integration - Frontiers, accessed July 18, 2025, https://www.frontiersin.org/research-topics/50985/enhancing-mobile-robot-navigation-through-semantic-slam-integration
  20. Semantic Mapping in Indoor Embodied AI – A Comprehensive Survey and Future Directions Request PDF - ResearchGate, accessed July 18, 2025, https://www.researchgate.net/publication/387954358Semantic_Mapping_in_Indoor_Embodied_AI–_A_Comprehensive_Survey_and_Future_Directions
  21. Semantic Mapping in Indoor Embodied AI – A Comprehensive Survey and Future Directions, accessed July 18, 2025, https://arxiv.org/html/2501.05750v1
  22. An Object-oriented Navigation Strategy for Service Robots Leveraging Semantic Information, accessed July 18, 2025, https://tohoku.elsevierpure.com/en/publications/an-object-oriented-navigation-strategy-for-service-robots-leverag
  23. Semantic SLAM for Collaborative Cognitive Workspaces - AAAI, accessed July 18, 2025, https://aaai.org/papers/0013-fs04-05-013-semantic-slam-for-collaborative-cognitive-workspaces/
  24. Deep Learning for Visual SLAM: The State-of-the-Art and Future …, accessed July 18, 2025, https://www.mdpi.com/2079-9292/12/9/2006
  25. DS-SLAM: A Semantic Visual SLAM towards Dynamic Environments - arXiv, accessed July 18, 2025, https://arxiv.org/pdf/1809.08379
  26. [2505.12384] Is Semantic SLAM Ready for Embedded Systems ? A Comparative Survey, accessed July 18, 2025, https://arxiv.org/abs/2505.12384
  27. [논문]SLAM 기술의 과거와 현재, accessed July 18, 2025, https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=JAKO201411560021024
  28. Semantic visual simultaneous localization and mapping (SLAM) using deep learning for dynamic scenes - PMC, accessed July 18, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10588701/
  29. Five Things You Need to Know About SLAM Simultaneous … - BasicAI, accessed July 18, 2025, https://www.basic.ai/blog-post/slam-simultaneous-localization-and-mapping
  30. What’s the difference between vision-based and LiDAR-based SLAM?, accessed July 18, 2025, https://www.exyn.com/news/vision-vs-lidar-slam
  31. Are there any advantages to using a LIDAR for SLAM vs a standard RGB camera?, accessed July 18, 2025, https://robotics.stackexchange.com/questions/10695/are-there-any-advantages-to-using-a-lidar-for-slam-vs-a-standard-rgb-camera
  32. SLAM and 3D Semantic Reconstruction Based on the Fusion of …, accessed July 18, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC9920633/
  33. ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual-Inertial and Multi-Map SLAM - ResearchGate, accessed July 18, 2025, https://www.researchgate.net/publication/343179441_ORB-SLAM3_An_Accurate_Open-Source_Library_for_Visual_Visual-Inertial_and_Multi-Map_SLAM
  34. A Review of Research on SLAM Technology Based on the Fusion of LiDAR and Vision, accessed July 18, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11902412/
  35. Visual SLAM: What Are the Current Trends and What to Expect? - PMC, accessed July 18, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC9735432/
  36. Learning Semantic Maps from Natural Language … - Robotics, accessed July 18, 2025, https://www.roboticsproceedings.org/rss09/p04.pdf
  37. Scene Understanding, Semantic SLAM, Implicit … - Niko Sünderhauf, accessed July 18, 2025, https://nikosuenderhauf.github.io/projects/sceneunderstanding/
  38. YOLOv8-ORB-SLAM3: Semantic SLAM with dynamic … - GitHub, accessed July 18, 2025, https://github.com/Glencsa/YOLOv8-ORB-SLAM3
  39. Semantic visual simultaneous localization and mapping (SLAM) using deep learning for dynamic scenes - PeerJ, accessed July 18, 2025, https://peerj.com/articles/cs-1628/
  40. [1910.02490] Kimera: an Open-Source Library for Real-Time Metric-Semantic Localization and Mapping - arXiv, accessed July 18, 2025, https://arxiv.org/abs/1910.02490
  41. MIT-SPARK/Kimera: Index repo for Kimera code - GitHub, accessed July 18, 2025, https://github.com/MIT-SPARK/Kimera
  42. [2401.06323] Kimera2: Robust and Accurate Metric-Semantic SLAM in the Real World, accessed July 18, 2025, https://arxiv.org/abs/2401.06323
  43. Kimera-Multi: Robust, Distributed, Dense Metric-Semantic SLAM for Multi-Robot Systems, accessed July 18, 2025, https://mit.edu/sparklab/2023/08/25/Kimera-Multi__Robust_Distributed_Dense_Metric-Semantic_SLAM_for_Multi-Robot-Systems.html
  44. Semantic SLAM Based on Deep Learning in Endocavity Environment - MDPI, accessed July 18, 2025, https://www.mdpi.com/2073-8994/14/3/614
  45. (PDF) Visual SLAM Methods for Autonomous Driving Vehicles - ResearchGate, accessed July 18, 2025, https://www.researchgate.net/publication/383230620_Visual_SLAM_Methods_for_Autonomous_Driving_Vehicles
  46. Simultaneous Localization and Mapping (SLAM) for Autonomous Driving: Concept and Analysis - MDPI, accessed July 18, 2025, https://www.mdpi.com/2072-4292/15/4/1156
  47. Semantic Scene Understanding in Robotics - The ERC Blog, accessed July 18, 2025, https://erc-bpgc.github.io/blog/blog/semantic_scene/
  48. Semantic Visual-inertial SLAM for Automated … - CVF Open Access, accessed July 18, 2025, https://openaccess.thecvf.com/content/ACCV2024/papers/Oh_Semantic_Visual-inertial_SLAM_for_Automated_Valet_Parking_ACCV_2024_paper.pdf
  49. Semantic SLAM for Collaborative Cognitive Workspaces - Frank Dellaert, accessed July 18, 2025, https://dellaert.github.io/files/Dellaert04ss.pdf
  50. Collaborative Mobile Robotics for Semantic Mapping: A Survey - MDPI, accessed July 18, 2025, https://www.mdpi.com/2076-3417/12/20/10316
  51. EnvSLAM: Combining SLAM Systems and Neural Networks to …, accessed July 18, 2025, https://www.mdpi.com/2220-9964/10/11/772
  52. Simultaneous Localization and Mapping for Augmented Reality (PDF) - ResearchGate, accessed July 18, 2025, https://www.researchgate.net/publication/232638940_Simultaneous_Localization_and_Mapping_for_Augmented_Reality_PDF
  53. SLAM: Enabling Algorithms for Robotics and Augmented Reality - Impact case study : Results and submissions : REF 2021, accessed July 18, 2025, https://results2021.ref.ac.uk/impact/1a6f38f0-ec7f-47aa-b662-7d8805cf9d37?page=1
  54. Simultaneous Localization & Mapping Market Size, Growth 2032, accessed July 18, 2025, https://www.snsinsider.com/reports/simultaneous-localization-and-mapping-market-6161
  55. Simultaneous Localization and Mapping (SLAM) Market to Hit USD 7811.04 Billion by 2032, at a CAGR of 36.43% SNS Insider - GlobeNewswire, accessed July 18, 2025, https://www.globenewswire.com/news-release/2025/04/10/3059347/0/en/Simultaneous-Localization-and-Mapping-SLAM-Market-to-Hit-USD-7811-04-Billion-by-2032-at-a-CAGR-of-36-43-SNS-Insider.html
  56. SLAM Technology Market Size, Share, trends 2033, accessed July 18, 2025, https://www.marketgrowthreports.com/market-reports/slam-technology-maket-100047
  57. Simultaneous Localization and Mapping (SLAM) Technology Market Share - MarkNtel, accessed July 18, 2025, https://www.marknteladvisors.com/research-library/slam-technology-market.html
  58. SLAM Technology V-SLAM Robotics & Software Slamcore, accessed July 18, 2025, https://www.slamcore.com/technology/
  59. Slamcore – Vision-Based SLAM for Automation & AI Navigation - Flowcate, accessed July 18, 2025, https://flowcate.com/slamcore-vision-based-slam/
  60. SLAMcore – Spatial AI Localisation & Mapping - Amadeus Capital Partners, accessed July 18, 2025, https://www.amadeuscapital.com/company/slamcore/
  61. About Us - Slamcore, accessed July 18, 2025, https://www.slamcore.com/about/
  62. Slamcore Unlock the potential of RTLS with vision, accessed July 18, 2025, https://www.slamcore.com/
  63. Pick the solution that fits your fleet - Slamcore, accessed July 18, 2025, https://www.slamcore.com/products/
  64. Simultaneous localization and mapping - Bosch Research, accessed July 18, 2025, https://www.bosch.com/stories/simultaneous-localization-and-mapping/
  65. 5 Top Simultaneous Localization & Mapping Startups - StartUs Insights, accessed July 18, 2025, https://www.startus-insights.com/innovators-guide/5-top-simultaneous-localization-and-mapping-startups/
  66. Hardware Acceleration for SLAM in Mobile Systems - SciOpen, accessed July 18, 2025, https://www.sciopen.com/article/10.1007/s11390-021-1523-5
  67. Automatic Memory Management in ORB SLAM-3, accessed July 18, 2025, https://cse.buffalo.edu/tech-reports/2024-01.pdf
  68. Challenges of Indoor SLAM: A multi-modal multi-floor dataset for SLAM evaluation - arXiv, accessed July 18, 2025, https://arxiv.org/html/2306.08522
  69. Review: Issues and Challenges of Simultaneous Localization and Mapping (SLAM) Technology in Autonomous Robot - ResearchGate, accessed July 18, 2025, https://www.researchgate.net/publication/369646388_Review_Issues_and_Challenges_of_Simultaneous_Localization_and_Mapping_SLAM_Technology_in_Autonomous_Robot
  70. Are Robot Vacuums Spying on You? A Deep Dive into Privacy …, accessed July 18, 2025, https://vacuumwars.com/are-robot-vacuums-spying-on-you/
  71. A Deep Look Into Privacy and Security Of Vacuum Robot - Cal Poly Pomona, accessed July 18, 2025, https://www.cpp.edu/cyberfair/poster-information/documents/vacuum-robot-abstract.pdf
  72. Robot Vacuum Privacy Concerns, Explained - Ecovacs, accessed July 18, 2025, https://www.ecovacs.com/us/blog/robot-vacuum-privacy-concerns
  73. Scene Understanding by Reasoning Stability and Safety - ResearchGate, accessed July 18, 2025, https://www.researchgate.net/publication/272682689_Scene_Understanding_by_Reasoning_Stability_and_Safety
  74. Semantically Safe Robot Manipulation: From … - OpenReview, accessed July 18, 2025, https://openreview.net/pdf/383695475801189fa3ad4a80f07f6abf51a49585.pdf
  75. Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models - arXiv, accessed July 18, 2025, https://arxiv.org/html/2411.06752v1
  76. Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models - ResearchGate, accessed July 18, 2025, https://www.researchgate.net/publication/385721155_Learning_from_Feedback_Semantic_Enhancement_for_Object_SLAM_Using_Foundation_Models
  77. Semantics in Large-language models by Dr Vaishak Belle - Medium, accessed July 18, 2025, https://medium.com/@vaishakbelle/semantics-in-large-language-models-aa71e6f9f4c9
  78. Semantic Enhancement for Object SLAM with Heterogeneous Multimodal Large Language Model Agents - arXiv, accessed July 18, 2025, https://arxiv.org/html/2411.06752v2
  79. SEO-SLAM: Semantic Enhancement for Object SLAM with Heterogeneous Multimodal Large Language Model Agents - Jungseok Hong, accessed July 18, 2025, https://jungseokhong.com/SEO-SLAM/
  80. [2411.06752] Semantic Enhancement for Object SLAM with Heterogeneous Multimodal Large Language Model Agents - arXiv, accessed July 18, 2025, https://arxiv.org/abs/2411.06752
  81. LP-SLAM: Language-Perceptive RGB-D SLAM system based on …, accessed July 18, 2025, https://paperswithcode.com/paper/lp-slam-language-perceptive-rgb-d-slam-system
  82. Lifelong LERF: Local 3D Semantic Inventory Monitoring Using FogROS2 - arXiv, accessed July 18, 2025, https://arxiv.org/html/2403.10494v1
  83. Embodied AI Workshop, accessed July 18, 2025, https://embodied-ai.org/
  84. Semantic Mapping in Indoor Embodied AI – A Survey on Advances, Challenges, and Future Directions - arXiv, accessed July 18, 2025, https://arxiv.org/html/2501.05750v2
  85. [2501.05750] Semantic Mapping in Indoor Embodied AI – A Survey on Advances, Challenges, and Future Directions - arXiv, accessed July 18, 2025, https://arxiv.org/abs/2501.05750
  86. Semantic Mapping in Indoor Embodied AI - A Survey on Advances, Challenges, and Future Directions OpenReview, accessed July 18, 2025, https://openreview.net/forum?id=USgQ38RG6G
  87. REINFORCEMENT LEARNING HELPS SLAM: LEARNING TO BUILD MAPS - Semantic Scholar, accessed July 18, 2025, https://pdfs.semanticscholar.org/4d1d/c03b7ad8573ba5ec2ff72ee43606e93bcd4d.pdf
  88. RASLS: Reinforcement Learning Active SLAM Approach with Layout …, accessed July 18, 2025, https://www.researchgate.net/publication/383890797_RASLS_Reinforcement_Learning_Active_SLAM_Approach_with_Layout_Semantic