Booil Jung

최신 SLAM 기술 동향 분석 보고서

SLAM(Simultaneous Localization and Mapping)은 로봇 공학 및 컴퓨터 비전 분야의 근본적인 문제로, 자율 시스템이 사전 정보가 없는 미지의 환경에서 자신의 위치를 실시간으로 추정(Localization)함과 동시에 주변 환경의 지도를 작성(Mapping)하는 기술을 의미한다.1 이 문제는 본질적으로 ‘닭과 달걀’의 관계로, 정확한 지도가 있어야 정확한 위치를 알 수 있고, 정확한 위치를 알아야 일관성 있는 지도를 만들 수 있다. 초기 SLAM은 확률적 접근법(probabilistic tools)에 기반하여 센서 측정값의 노이즈와 불확실성을 다루는 방식으로 발전해왔다.3

최근 수년간 SLAM 기술은 인공지능, 특히 딥러닝의 발전과 맞물려 폭발적인 진화를 거듭하고 있다. 이 보고서는 최신 SLAM 기술의 동향을 네 가지 핵심적인 진화 방향을 축으로 분석한다.

첫째, 정밀도의 정점이다. 전통적인 기하학 기반 SLAM은 수십 년간 축적된 최적화 이론을 바탕으로 인간이 설계한 특징점(feature)과 기하학적 제약을 활용하여 정확도를 극한까지 끌어올렸다. 이 흐름의 정점에 있는 기술들을 통해 현대 SLAM의 성능 기준선을 이해한다.

둘째, 강인함의 추구이다. 현실 세계는 실험실과 달리 조명 변화, 빠른 움직임, 텍스처 부족 등 예측 불가능한 변수로 가득하다. 딥러닝 기반의 학습 능력과 LiDAR, IMU 등 다양한 센서를 긴밀하게 융합(multi-sensor fusion)하는 기술이 어떻게 이러한 불확실성을 극복하고 SLAM의 강인함(robustness)을 새로운 차원으로 끌어올렸는지 탐구한다.4

셋째, 표현의 혁명이다. SLAM의 핵심 구성 요소인 ‘맵’을 표현하는 방식 자체가 근본적으로 바뀌고 있다. 과거의 점, 선, 면과 같은 명시적(explicit) 표현이나 복셀(voxel) 기반의 이산적(discrete) 표현에서 벗어나, 3D 장면 전체를 하나의 연속적인 함수, 즉 신경장(Neural Fields)으로 표현하려는 시도가 새로운 패러다임을 열고 있다.5 이는 단순히 맵을 압축하는 것을 넘어, 렌더링을 통해 SLAM 문제 자체를 재정의하는 혁신을 가져왔다.

마지막으로, 이해의 심화이다. 로봇이 단순히 공간의 기하학적 구조를 파악하는 것을 넘어, 그 공간에 존재하는 객체들의 의미(semantics)를 이해하는 것은 진정한 자율 지능의 필수 조건이다. 시맨틱 SLAM은 기하학적 지도에 ‘의자’, ‘책상’과 같은 의미론적 정보를 통합하여, 로봇이 환경과 보다 지능적으로 상호작용할 수 있는 토대를 마련하고 있다.5

본 보고서는 이러한 네 가지 흐름을 따라, 각 분야를 대표하는 최신 SLAM 기술들을 발표 연도, 기술적 참고 관계, 핵심 특징, 장단점, 그리고 해결하고자 하는 문제의 관점에서 심층적으로 분석하여, 현재 SLAM 기술의 최전선(state-of-the-art)과 미래 발전 방향에 대한 통찰을 제공하고자 한다.

현대 SLAM 연구의 지형을 이해하기 위해서는, 서로 다른 철학을 바탕으로 각자의 분야에서 정점에 도달한 두 개의 상징적인 시스템을 먼저 분석해야 한다. 하나는 수십 년간 발전해 온 전통적인 최적화 방식의 완성형이며, 다른 하나는 딥러닝을 통해 SLAM의 가능성을 재정의한 혁신적인 시스템이다. 이 두 기술은 이후 등장하는 수많은 연구들의 성능을 비교하고 평가하는 중요한 기준점(baseline) 역할을 한다.

ORB-SLAM3는 전통적인 특징점(feature-based) 기반 SLAM 기술의 집대성이라 할 수 있는 시스템이다. 이는 단순히 하나의 알고리즘이 아니라, 단안(monocular), 스테레오(stereo), RGB-D 카메라를 모두 지원하며, 관성 측정 장치(IMU)와의 융합은 물론, 핀홀(pin-hole) 및 어안(fisheye) 렌즈 모델까지 포괄하는 최초의 통합 SLAM 라이브러리라는 점에서 그 의의가 크다.8 이 시스템은 이전 버전인 ORB-SLAM, ORB-SLAM2, 그리고 ORB-SLAM-VI의 계보를 잇는 최종 진화형으로, 과거의 성공적인 요소들을 계승하고 한계점들을 개선했다.9

ORB-SLAM3의 혁신은 기존의 검증된 기술들을 어떻게 계승하고 발전시켰는지 살펴보면 명확해진다.

ORB-SLAM3의 가장 큰 장점은 수많은 실험을 통해 검증된 강인성과 현존하는 시스템 중 최고 수준의 정확도이다.8 또한 다양한 센서 구성을 지원하는 범용성과 잘 관리된 오픈소스 코드 덕분에 학계와 산업계에서 표준적인 SLAM 시스템으로 널리 사용되고 있다.9

하지만 명확한 한계도 존재한다. 특징점 기반 방식의 태생적 한계로 인해, 벽이나 복도처럼 텍스처가 부족한 환경에서는 특징점을 충분히 추출하지 못해 트래킹에 실패할 수 있다.12 또한, 자동차 주행처럼 순수한 회전이 거의 없거나 매우 느리게 움직이는 시나리오에서는 IMU 센서가 충분한 관측 정보를 얻지 못해 초기화에 어려움을 겪을 수 있다.12 동적 객체(움직이는 사람, 차량 등)에 대한 명시적인 처리 기능이 부족하여, 이러한 객체들을 정적인 배경의 일부로 오인해 오차를 유발할 수도 있다.

ORB-SLAM3가 고전적인 최적화 방식의 정점을 보여줬다면, 같은 해에 발표된 DROID-SLAM은 SLAM 문제에 대한 완전히 다른 접근법, 즉 End-to-End 딥러닝의 가능성을 제시하며 학계에 큰 충격을 주었다. DROID-SLAM은 특징 추출, 매칭, 최적화 등으로 나뉘어 있던 복잡한 SLAM 파이프라인을, 미분 가능한(differentiable) 단일 심층 신경망으로 대체하려는 시도의 결정체다.13 핵심은 미분 가능한 ‘Dense Bundle Adjustment (DBA) Layer’를 통해 카메라 포즈와 영상의 모든 픽셀에 대한 깊이(depth) 값을 반복적으로 함께 업데이트하는 것이다.15

DROID-SLAM의 독창성은 기존 딥러닝 아키텍처와 고전 기하학 원리를 영리하게 융합한 데 있다.

DROID-SLAM의 가장 큰 장점은 기존의 어떤 시스템과도 비교하기 힘든 압도적인 정확도강인성(catastrophic failures, 즉 치명적인 추적 실패가 현저히 적음)이다.14 또한 수많은 하이퍼파라미터 튜닝과 엔지니어링 트릭이 필요했던 기존 시스템들과 달리, 상대적으로 설계가 간결하다는 장점이 있다.17

하지만 이러한 성능은 상당한 대가를 치른다. 가장 큰 단점은 높은 계산 비용이다. 실시간에 가깝게 동작하기 위해서는 최소 11GB 이상의 메모리를 가진 고사양 GPU가 필수적이며, 학습에는 24GB 이상의 메모리를 가진 GPU 여러 장이 필요하다.19 특히 수십, 수백 개의 키프레임에 대한 포즈와 조밀한 깊이 맵을 동시에 최적화하는 전역 BA(Global BA)는 엄청난 계산량을 요구한다.17 이는 저전력 임베디드 시스템이나 모바일 기기에서의 활용을 어렵게 만드는 주요한 제약 조건이다.

ORB-SLAM3와 DROID-SLAM은 SLAM 문제에 대한 두 가지 상반된 철학적 접근 방식의 현재 위치를 명확히 보여준다. ORB-SLAM3는 ‘모델 기반(model-based)’ 접근법의 정점으로, 수십 년간 컴퓨터 비전 연구자들이 쌓아 올린 기하학적 원리와 최적화 이론의 집대성이다. 이 시스템의 작동 원리는 명확하게 해석 가능하며, 그 성능은 수학적으로 보장된다. 반면, DROID-SLAM은 ‘데이터 기반(data-driven)’ 접근법의 새로운 시대를 열었다. 복잡하고 단계적인 파이프라인을, 데이터로부터 직접 해법을 배우는 단일 학습 문제로 치환하려는 야심 찬 시도다.

이 두 시스템의 관계를 더 깊이 파고들면 흥미로운 지점이 발견된다. 전통적 SLAM, 즉 ORB-SLAM3와 같은 시스템이 실패하는 지점은 주로 ‘까다로운’ 환경이다. 텍스처가 없거나, 조명이 급격히 변하거나, 움직임이 매우 빨라 모션 블러가 심한 경우, 인간이 설계한 ORB 특징점은 안정적으로 추출되고 매칭되기 어렵다.20 딥러닝은 바로 이 지점에서 해법을 제시한다. DROID-SLAM의 RAFT 기반 구조는 데이터로부터 대응점(correspondence)을 학습하기 때문에, 사람이 정의한 특징점보다 훨씬 더 강인하고 조밀한(dense) 매칭 정보를 제공할 수 있다.

하지만 DROID-SLAM 역시 기하학적 원리를 완전히 버린 것은 아니다. 그 이름에 ‘Dense Bundle Adjustment’가 포함된 것에서 알 수 있듯, 고전 기하학의 핵심 원리인 번들 조정을 미분 가능한 레이어 형태로 네트워크에 통합했다. 이는 순수 딥러닝이 가질 수 있는 ‘블랙박스’ 문제를 완화하고, 강력한 기하학적 제약을 통해 학습 과정에 안정성을 부여하며, 결과적으로 뛰어난 일반화 성능을 확보하려는 영리한 전략이다.14

결론적으로, 이 두 시스템의 등장은 미래 SLAM의 방향이 순수한 모델 기반도, 순수한 데이터 기반도 아닌, 두 가지의 장점을 결합한 ‘하이브리드(hybrid)’ 형태가 될 것임을 강력하게 시사한다. DROID-SLAM은 그 성공적인 초기 사례이며, ORB-SLAM3는 앞으로 등장할 모든 새로운 접근법들이 반드시 넘어서야 할, 매우 강력하고 신뢰할 수 있는 ‘기하학적 기준선(geometric baseline)’으로 확고히 자리매김했다.

Visual SLAM은 저렴한 카메라 센서를 사용하여 풍부한 환경 정보를 얻을 수 있다는 장점이 있지만, 조명 변화에 민감하고 스케일 모호성(scale ambiguity) 문제를 가지는 등 명확한 한계가 존재한다.21 이러한 한계를 극복하기 위해, 조명 변화에 강인하고 정확한 3차원 거리 측정이 가능한 LiDAR 센서의 활용이 필수적으로 여겨지고 있다. 이 장에서는 LiDAR를 중심으로 IMU, 카메라 등 여러 센서의 정보를 긴밀하게 결합(tightly-coupled)하여, 어떤 환경에서도 강인하고 정밀한 성능을 발휘하는 최신 다중 센서 융합 SLAM 기술들을 탐구한다.

카메라와 LiDAR는 상호보완적인 특성을 가진다. 카메라는 저렴하고 조밀한 텍스처 정보를 제공하지만 조명과 스케일에 취약하다. 반면 LiDAR는 주변광의 영향을 받지 않고 정확한 3D 구조 정보를 제공하지만, 데이터가 상대적으로 희소(sparse)하고 가격이 비싸다.21 여기에 고주파수(high-frequency)의 관성 정보를 제공하여 빠른 움직임을 포착하는 IMU를 융합하는 것이 현대 SLAM의 핵심 과제 중 하나가 되었다.4

센서 융합 기술은 초기에 각 센서의 추정 결과를 나중에 합치는 느슨한 결합(loosely-coupled) 방식에서 시작하여, 모든 센서의 원시 측정값(raw measurements)을 하나의 통합된 최적화 문제로 풀어내는 긴밀한 결합(tightly-coupled) 방식으로 발전해왔다.3 이 흐름에서 중요한 이정표가 된 기술들이 있다. LIO-SAM (2020)은 평활화 및 매핑(smoothing and mapping) 기법을 사용하는 그래프 최적화 기반의 LIO(LiDAR-Inertial Odometry) 시스템으로 널리 사용되었다.24 이후 FAST-LIO2 (2022)는 패러다임을 한 단계 더 발전시켰다. 이 시스템은 계산 비용이 많이 드는 특징 추출(feature extraction) 과정을 생략하고, LiDAR의 원시 포인트(raw points)를 맵에 직접 정합(register)하는 ‘Direct’ 방식을 채택했다. 또한, 복잡한 그래프 최적화 대신 매우 효율적인 반복 칼만 필터(Error-State Iterated Kalman Filter, ESIKF)를 사용하여 실시간 성능과 정확도를 동시에 달성했다.25 이러한 기술적 진화의 최전선에 바로 FAST-LIVO2가 있다.

FAST-LIVO2는 FAST-LIO2의 성공적인 프레임워크를 기반으로, 여기에 Visual Odometry(VO)를 직접적(Direct)이고 긴밀하게(Tightly-coupled) 융합한 최신 LIVO(LiDAR-Inertial-Visual Odometry) 시스템이다.27 이 시스템은 LiDAR, IMU, 카메라로부터 들어오는 이종(heterogeneous)의 측정값들을 ESIKF 내에서 순차적으로 업데이트하는 방식으로 효율적이면서도 강인하게 융합한다.29

FAST-LIVO2의 장점은 명확하다. 정확도, 강인성, 계산 효율성 모든 측면에서 기존의 SOTA 시스템들을 상당한 차이로 능가한다.30 특히 계산 효율이 매우 높아, 소형 무인 항공기(UAV)에 탑재하여 실시간 항법(onboard navigation)을 수행할 수 있을 정도다.31

하지만 이러한 고성능 시스템은 하드웨어 동기화에 매우 민감하다. LiDAR, 카메라, IMU 센서 간의 시간 정보가 물리적으로 정확하게 동기화되지 않으면, 센서 융합 과정에서 큰 오차가 발생하여 시스템 성능이 급격히 저하될 수 있다.31

대부분의 다중 센서 융합 연구가 LiDAR, 카메라, IMU의 조합에 집중하는 동안, RLI-SLAM은 새로운 센서인 UWB(Ultra-Wideband)를 도입하여 새로운 가능성을 제시했다.32 RLI-SLAM은 UWB의 거리 측정(ranging) 정보, LiDAR, IMU를 긴밀하게 결합한 SLAM 프레임워크다.32

RLI-SLAM은 단 하나의 UWB 앵커로부터 거리 측정 정보만 받아도 높은 정확도와 강인성을 유지할 수 있다. 또한, 계산 복잡도가 FAST-LIO2와 유사한 수준으로 매우 낮아 실시간 적용에 유리하다.32

SLAM의 강인성은 결국 ‘융합의 깊이’에 비례한다는 것을 이 장의 기술들은 명확히 보여준다. 여러 센서를 단순히 병렬로 사용하는 것을 넘어, 각 센서의 원시 측정값이 다른 센서의 약점을 실시간으로, 그리고 근본적으로 어떻게 보완해주는지가 시스템 전체의 성능을 결정한다. FAST-LIVO2는 이러한 융합 철학의 정점에 서 있는 시스템이다.

이 기술들의 발전 과정을 따라가 보면, 융합의 패러다임이 어떻게 진화했는지 알 수 있다. LIO(LiDAR-Inertial Odometry)는 왜 강력한가? LiDAR의 정확한 3D 거리 측정과 IMU의 고주파 모션 추정이 결합되어, 시각 정보가 전혀 없는 어두운 환경이나 텍스처가 없는 환경에서도 강인한 위치 추정이 가능하기 때문이다. 그렇다면 LIVO(LiDAR-Inertial-Visual Odometry)는 왜 더 강력한가? LIO만으로는 표지판이나 벽의 그림과 같이 텍스처가 풍부하지만 기하학적으로는 단순한 평면의 정보를 충분히 활용할 수 없다. 여기에 카메라를 더하면, LiDAR가 3D 공간의 기하학적 뼈대(e.g., plane prior)를 제공하고, 카메라가 그 위에 색과 텍스처라는 풍부한 정보(e.g., photometric error)를 입혀, 훨씬 더 정교하고 강인한 위치 추정이 가능해진다.

FAST-LIVO2의 ‘Unified Voxel Map’은 이러한 융합 과정을 물리적으로 구현한 결정체다. 이 맵에서 LiDAR 포인트는 더 이상 단순한 3D 좌표의 나열이 아니다. 각 포인트는 자신을 관측했던 이미지의 조각(patch)을 ‘들고 있는’ 앵커(anchor)가 된다. 이는 물리적으로, 그리고 정보적으로 완전히 다른 두 이종 센서의 데이터를 하나의 통합된 최적화 문제로 엮어주는 핵심적인 다리 역할을 한다.30

결론적으로, 최신 센서 퓨전 SLAM은 ‘어떤 센서를 추가로 사용하는가’의 문제를 넘어, ‘여러 센서의 이질적인 데이터를 어떻게 하나의 일관된 표현(representation)으로 엮어내는가’의 문제로 진화했다. FAST-LIVO2의 Unified Voxel Map은 이러한 ‘표현의 융합’을 보여주는 대표적인 성공 사례이며, RLI-SLAM의 UWB 도입은 미래에 Radar, Event Camera 등 더욱 다양한 센서들이 이 융합 프레임워크에 통합될 수 있는 무한한 가능성을 시사한다.

SLAM 기술의 역사에서 가장 혁신적인 변화는 종종 ‘맵(Map)’을 표현하는 방식 자체를 근본적으로 바꾸는 것에서 시작되었다. 최근 몇 년간, 3D 장면을 점, 선, 면의 집합이 아닌 하나의 연속적인 함수, 즉 신경장(Neural Fields)으로 표현하려는 시도가 SLAM 분야에 거대한 패러다임 전환을 가져오고 있다. 이 장에서는 3D 장면 표현의 혁명을 이끈 NeRF(Neural Radiance Fields)와 3D Gaussian Splatting(3DGS) 기술을 SLAM에 접목한 최신 연구들의 등장과 그 폭발적인 발전 과정을 추적한다.

이 두 기술은 SLAM의 ‘M(Mapping)’ 부분을 대체할 매우 강력한 후보로 떠올랐다. 맵 자체가 미분 가능한 신경 표현(neural representation)이 되면서, SLAM의 또 다른 축인 ‘L(Localization)’, 즉 추적(Tracking) 역시 기존의 기하학적 오차 최소화 문제에서, 현재 포즈에서 렌더링한 이미지와 실제 센서 이미지 간의 차이, 즉 ‘렌더링 오차(rendering loss)’를 최소화하는 새로운 최적화 문제로 자연스럽게 변환되었다.6

NICE-SLAM이 확장성의 문을 열자, 연구자들은 더 어려운 문제에 도전하기 시작했다.

신경장 SLAM의 발전사는 ‘표현의 효율성과 확장성’을 향한 끊임없는 투쟁의 역사로 요약될 수 있다. 이 진화의 과정을 따라가 보면, 문제 해결 방식이 어떻게 점진적으로 정교해졌는지 명확히 보인다.

  1. 문제의 시작 (iMAP): NeRF를 SLAM에 처음 도입하려 했을 때, 가장 단순한 방법은 전체 장면을 하나의 거대한 신경망에 넣는 것이었다. 하지만 이는 곧 비효율적이고 확장 불가능하다는 벽에 부딪혔다.42
  2. 첫 번째 해결책 (NICE-SLAM): “전체를 한 번에 처리하지 말고, 공간을 잘게 쪼개서 로컬하게 다루자.” 이 아이디어는 계층적 그리드를 탄생시켰고, 맵을 지역적으로 업데이트할 수 있게 만들어 대규모 환경으로의 확장성 문제를 해결했다.42
  3. 새로운 문제의 발견: “그런데 공간을 균일하게 쪼개는 것도 낭비 아닌가?” 텅 빈 흰 벽과 책상 위 복잡한 물체들에 동일한 양의 메모리와 계산 자원을 할당하는 것은 명백히 비효율적이었다.46
  4. 두 번째 해결책 (Point-SLAM): “필요한 곳에만 자원을 집중하자.” 정보가 풍부한 곳에만 특징 앵커(포인트)를 동적으로 배치함으로써, 표현의 효율성을 한 단계 더 끌어올렸다.46
  5. 근본적인 질문 제기: “그런데 왜 우리는 매번 새로운 장면을 볼 때마다 바닥부터 다시 학습해야 하는가?” Per-scene optimization 방식은 시간이 오래 걸릴 뿐만 아니라, 이전에 쌓아온 경험을 전혀 활용하지 못하는 근본적인 한계를 가지고 있었다.48
  6. 궁극적인 해결책을 향한 시도 (GS4): “학습의 일반화를 통해, 경험을 재사용하자.” 다양한 장면을 미리 학습해서, 새로운 장면을 보면 ‘추론’만으로 맵을 생성하자는 아이디어다. 이는 SLAM을 ‘온라인 최적화 문제’에서, 딥러닝 시대의 ‘인식/추론 문제’로 전환하려는 혁신적인 시도이며, 진정한 의미의 실시간, 저전력 SLAM을 향한 매우 중요한 걸음이다.35

결론적으로, 이 진화 과정은 SLAM이 점차 고전적인 기하학 기반 최적화 문제에서 벗어나, 현대 딥러닝의 인식(recognition) 및 생성(generation) 패러다임을 적극적으로 수용하고 있음을 명확하게 보여준다. GS4가 제시하는 ‘일반화’는 이 거대한 흐름의 최전선에 있으며, SLAM의 미래를 바꿀 잠재력을 가지고 있다.

지금까지의 SLAM은 로봇이 “내가 어디에 있는가?”와 “주변 공간은 어떻게 생겼는가?”라는 기하학적 질문에 답하는 데 집중해왔다. 하지만 로봇이 단순히 공간을 배회하는 것을 넘어, 인간과 의미 있는 상호작용을 하거나 복잡한 임무를 수행하기 위해서는 “저기 있는 저것이 무엇인가?”라는 질문에 답할 수 있어야 한다. 이 장에서는 기하학적 맵에 ‘의미(semantics)’를 부여하는 시맨틱 SLAM의 최신 동향을, 특히 앞서 살펴본 혁신적인 신경장 기술과의 융합을 중심으로 심도 있게 살펴본다.

시맨틱 SLAM은 전통적인 SLAM을 통해 생성된 기하학적 맵(점, 선, 면 등)에 시맨틱 정보(예: 의자, 책상, 문, 사람 등)를 통합하는 기술이다.5 이를 통해 로봇은 다음과 같은 고차원적인 능력을 갖게 된다.

초기 시맨틱 SLAM은 SLAM 시스템과 딥러닝 기반 객체 탐지(Object Detection) 시스템(예: YOLO, Mask R-CNN)을 별도로 구동한 후, 그 결과를 후처리 과정에서 결합하는 방식이 주를 이루었다.49 하지만 최근 연구들은 두 작업을 분리하지 않고, 특징(feature) 레벨에서부터 깊게 융합하여 하나의 통합된 프레임워크 안에서 해결하려는 방향으로 나아가고 있다.5

신경장(NeRF, 3DGS)의 등장은 시맨틱 SLAM에도 새로운 가능성을 열어주었다. 맵 자체가 풍부한 정보를 담을 수 있는 신경망으로 표현되면서, 기하학적 정보와 시맨틱 정보를 훨씬 더 자연스럽고 깊게 통합할 수 있게 된 것이다.

시맨틱 SLAM의 발전 과정은 ‘어떻게 정보를 결합할 것인가’라는 질문에 대한 답을 찾아가는 여정이었다.

  1. 초기 접근법 (단순 결합): 기하학적 SLAM으로 3D 맵을 만들고(A), 딥러닝 모델로 2D 이미지에서 객체를 탐지한 후(B), 이 두 결과를 3D 공간에 투영하여 합치는(A+B) 방식이었다. 이 방식은 간단하지만, 두 모듈에서 발생한 오차가 그대로 중첩되고, 두 정보 간의 상호작용이 없어 일관성이 부족하다는 명확한 한계가 있었다.49
  2. SNI-SLAM의 진화 (특징 레벨 융합): “결과물이 아니라, 특징(feature) 레벨에서부터 융합하자.” SNI-SLAM은 외형, 기하, 시맨틱 특징을 각각 추출한 뒤, 이들이 서로를 참조하고 가중치를 조절하도록(cross-attention) 만들었다. 이를 통해 시스템은 “기하학적으로 보니 이 부분은 평면인데, 외형적으로는 나무 질감이고, 따라서 시맨틱적으로는 ‘책상’일 확률이 매우 높다”와 같은 복합적이고 정교한 추론을 할 수 있게 되었다. 이는 단순 결합 방식보다 훨씬 더 깊은 수준의 융합이다.50
  3. GS4의 통합 (End-to-End): “애초에 분리해서 생각할 필요가 있는가?” GS4는 여기서 한 걸음 더 나아가, 입력 이미지로부터 기하 정보와 시맨틱 정보를 예측하는 과정 자체를 하나의 공유된 네트워크에서 동시에 수행한다. 이는 ‘공간 재구성(Mapping)’과 ‘공간 인식(Recognition)’이 본질적으로 분리될 수 없는 하나의 작업이라는 철학을 반영한다. 로봇이 공간을 이해하는 방식이 인간의 인식 과정과 더욱 유사해지는 것이다.35

결론적으로, 시맨틱 SLAM은 기하학적 SLAM 위에 지능을 ‘덧씌우는’ 단계에서, 처음부터 지능적으로 공간을 ‘인식’하고 ‘재구성’하는 방향으로 진화하고 있다. SNI-SLAM과 GS4는 이러한 패러다임 전환의 선두에 서 있으며, 미래의 로봇이 인간과 같은 수준에서 환경을 이해하고 상호작용하는 데 필수적인 기술적 토대를 마련하고 있다.

이 보고서에서 분석한 최신 SLAM 기술들은 몇 가지 뚜렷한 기술적 흐름을 보여준다. 이러한 흐름을 요약하고, 여전히 남아있는 핵심 과제들을 조명하며, 미래 연구 방향을 전망해 본다.

이러한 눈부신 발전에도 불구하고, SLAM은 여전히 해결해야 할 많은 과제를 안고 있다.

이러한 과제들을 해결하기 위한 미래 연구는 다음과 같은 방향으로 진행될 것으로 예상된다.

다음 표는 본 보고서에서 심층적으로 다룬 핵심 기술들의 특징을 한눈에 비교할 수 있도록 정리한 것이다.

기술 (발표 연도) 핵심 아이디어 / 맵 표현 주요 센서 장점 단점 / 해결 과제 기술적 계보 (참고)
ORB-SLAM3 (2021) 특징점 기반 MAP 추정 / Atlas 다중 맵 Visual, V-I 높은 정확도, 강인성, 다중 센서/맵 지원 저텍스처/동적 환경 취약 ORB-SLAM2, DBoW2 12
DROID-SLAM (2021) End-to-End 딥러닝 / Dense BA Layer Visual, V-I 압도적 정확도, 뛰어난 일반화 높은 GPU 요구사항, 복잡한 BA RAFT, BA-Net 14
FAST-LIVO2 (2024) Direct 방식의 긴밀한 결합 / Unified Voxel Map LiDAR, IMU, Visual 높은 효율성, 정확도, 강인성 하드웨어 동기화 필수 FAST-LIO2, FAST-LIVO 30
NICE-SLAM (2022) 계층적 특징 그리드 기반 NeRF RGB-D 대규모 환경으로 확장 가능, 지역적 업데이트 그리드 해상도 한계, 빈 공간 샘플링 iMAP, ConvONet 42
Point-SLAM (2023) 동적 신경 포인트 클라우드 RGB-D 메모리 효율성, 정보 밀도 기반 적응 포인트 관리 복잡성 NICE-SLAM, Point-NeRF 46
GS4 (2025 추정) 일반화 가능한 3DGS / Feed-forward 예측 RGB-D Per-scene 최적화 불필요, 제로샷 일반화 일반화 성능의 한계, 데이터 의존성 3DGS, Generalizable NeRFs 35
SNI-SLAM (2024) Cross-Attention 기반 특징 융합 NeRF RGB-D 기하/외형/시맨틱의 깊은 융합 융합 메커니즘의 복잡성 NICE-SLAM, Semantic Nets 50
  1. A Comprehensive Survey of Visual SLAM Algorithms - MDPI, accessed July 23, 2025, https://www.mdpi.com/2218-6581/11/1/24
  2. A survey on real-time 3D scene reconstruction with SLAM methods in embedded systems - arXiv, accessed July 23, 2025, https://arxiv.org/pdf/2309.05349
  3. (PDF) The Simultaneous Localization and Mapping (SLAM)-An Overview - ResearchGate, accessed July 23, 2025, https://www.researchgate.net/publication/359698805_The_Simultaneous_Localization_and_Mapping_SLAM-An_Overview
  4. A Review of Research on SLAM Technology Based on the Fusion of LiDAR and Vision, accessed July 23, 2025, https://www.researchgate.net/publication/389419323_A_Review_of_Research_on_SLAM_Technology_Based_on_the_Fusion_of_LiDAR_and_Vision
  5. Is Semantic SLAM Ready for Embedded Systems ? A Comparative Survey - arXiv, accessed July 23, 2025, https://arxiv.org/html/2505.12384v1
  6. SLAM Meets NeRF: A Survey of Implicit SLAM Methods - MDPI, accessed July 23, 2025, https://www.mdpi.com/2032-6653/15/3/85
  7. Robust and Efficient Semantic SLAM with Semantic Keypoints - Y-Prize - University of Pennsylvania, accessed July 23, 2025, https://yprize.upenn.edu/wp-content/uploads/2021/01/Semantic-SLAM-paper.pdf
  8. ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual-Inertial and Multi-Map SLAM - ResearchGate, accessed July 23, 2025, https://www.researchgate.net/publication/343179441_ORB-SLAM3_An_Accurate_Open-Source_Library_for_Visual_Visual-Inertial_and_Multi-Map_SLAM
  9. UZ-SLAMLab/ORB_SLAM3: ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual-Inertial and Multi-Map SLAM - GitHub, accessed July 23, 2025, https://github.com/UZ-SLAMLab/ORB_SLAM3
  10. ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual–Inertial, and Multimap SLAM Request PDF - ResearchGate, accessed July 23, 2025, https://www.researchgate.net/publication/351862633_ORB-SLAM3_An_Accurate_Open-Source_Library_for_Visual_Visual-Inertial_and_Multimap_SLAM
  11. ORB-SLAM3 An Accurate Open-Source Library For Visual VisualInertial and Multimap SLAM - Scribd, accessed July 23, 2025, https://www.scribd.com/document/781310924/ORB-SLAM3-an-Accurate-Open-Source-Library-for-Visual-VisualInertial-and-Multimap-SLAM
  12. [2007.11898] ORB-SLAM3: An Accurate Open-Source Library for …, accessed July 23, 2025, https://ar5iv.labs.arxiv.org/html/2007.11898
  13. DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras Request PDF - ResearchGate, accessed July 23, 2025, https://www.researchgate.net/publication/354115433_DROID-SLAM_Deep_Visual_SLAM_for_Monocular_Stereo_and_RGB-D_Cameras
  14. DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras, accessed July 23, 2025, https://proceedings.neurips.cc/paper/2021/file/89fcd07f20b6785b92134bd6c1d0fa42-Paper.pdf
  15. DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras - Papertalk, accessed July 23, 2025, https://papertalk.org/papertalks/37631
  16. DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras, accessed July 23, 2025, https://collaborate.princeton.edu/en/publications/droid-slam-deep-visual-slam-for-monocular-stereo-and-rgb-d-camera
  17. DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras, accessed July 23, 2025, https://openreview.net/forum?id=ZBfUo_dr4H
  18. accessed January 1, 1970, https.proceedings.neurips.cc/paper/2021/file/89fcd07f20b6785b92134bd6c1d0fa42-Paper.pdf
  19. princeton-vl/DROID-SLAM - GitHub, accessed July 23, 2025, https://github.com/princeton-vl/DROID-SLAM
  20. A Visual-Inertial SLAM Based on Point-Line Features and Efficient IMU Initialization - arXiv, accessed July 23, 2025, https://arxiv.org/html/2401.01081v2
  21. LiDAR-based SLAM for robotic mapping: state of the art and new frontiers Emerald Insight, accessed July 23, 2025, https://www.emerald.com/insight/content/doi/10.1108/ir-09-2023-0225/full/pdf?title=lidar-based-slam-for-robotic-mapping-state-of-the-art-and-new-frontiers
  22. (PDF) A Comprehensive Survey of Visual SLAM Algorithms - ResearchGate, accessed July 23, 2025, https://www.researchgate.net/publication/358523574_A_Comprehensive_Survey_of_Visual_SLAM_Algorithms
  23. A Review of Visual-LiDAR Fusion based Simultaneous Localization and Mapping - PMC, accessed July 23, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC7181037/
  24. Online LiDAR-SLAM for Legged Robots with Robust Registration and Deep-Learned Loop Closure, accessed July 23, 2025, https://ori.ox.ac.uk/media/5601/2020icra_ramezani.pdf
  25. 面向鲁棒的传感器融合地面SLAM, accessed July 23, 2025, https://www.xueshuxiangzi.com/downloads/2025_7_14/2507.08364.pdf
  26. [2107.06829] FAST-LIO2: Fast Direct LiDAR-inertial Odometry - arXiv, accessed July 23, 2025, https://arxiv.org/abs/2107.06829
  27. sjtuyinjie/awesome-LiDAR-Visual-SLAM - GitHub, accessed July 23, 2025, https://github.com/sjtuyinjie/awesome-LiDAR-Visual-SLAM
  28. LIR-LIVO: A Lightweight,Robust LiDAR/Vision/Inertial Odometry with Illumination-Resilient Deep Features - arXiv, accessed July 23, 2025, https://arxiv.org/pdf/2502.08676?
  29. FAST-LIVO2: Fast, Direct LiDAR-Inertial-Visual Odometry Request PDF - ResearchGate, accessed July 23, 2025, https://www.researchgate.net/publication/383428735_FAST-LIVO2_Fast_Direct_LiDAR-Inertial-Visual_Odometry
  30. FAST-LIVO2: Fast, Direct LiDAR-Inertial-Visual Odometry - arXiv, accessed July 23, 2025, https://arxiv.org/html/2408.14035v2
  31. hku-mars/FAST-LIVO: A Fast and Tightly-coupled Sparse-Direct LiDAR-Inertial-Visual Odometry (LIVO). - GitHub, accessed July 23, 2025, https://github.com/hku-mars/FAST-LIVO
  32. RLI-SLAM: Fast Robust Ranging-LiDAR-Inertial Tightly-Coupled …, accessed July 23, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11398178/
  33. NeRFs in Robotics: A Survey - arXiv, accessed July 23, 2025, https://arxiv.org/html/2405.01333v2
  34. Neural Radiance Fields for the Real World: A Survey - arXiv, accessed July 23, 2025, https://arxiv.org/html/2501.13104v1
  35. arxiv.org, accessed July 23, 2025, https://arxiv.org/html/2506.06517v1
  36. 3D Gaussian Splatting for Modern Architectural Heritage: Integrating UAV-Based Data Acquisition and Advanced Photorealistic 3D - AGILE-GISS, accessed July 23, 2025, https://agile-giss.copernicus.org/articles/6/51/2025/agile-giss-6-51-2025.pdf
  37. A Survey on 3D Gaussian Splatting, accessed July 23, 2025, https://www.cs.jhu.edu/~misha/ReadingSeminar/Papers/Chen24.pdf
  38. [2402.13255] How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey, accessed July 23, 2025, https://arxiv.org/abs/2402.13255
  39. arXiv:2503.18275v1 [cs.RO] 24 Mar 2025, accessed July 23, 2025, https://arxiv.org/pdf/2503.18275
  40. 3D-Vision-World/awesome-NeRF-and-3DGS-SLAM - GitHub, accessed July 23, 2025, https://github.com/3D-Vision-World/awesome-NeRF-and-3DGS-SLAM
  41. iMAP: Implicit Mapping and Positioning in Real … - CVF Open Access, accessed July 23, 2025, https://openaccess.thecvf.com/content/ICCV2021/papers/Sucar_iMAP_Implicit_Mapping_and_Positioning_in_Real-Time_ICCV_2021_paper.pdf
  42. NICE-SLAM: Neural Implicit Scalable Encoding … - CVF Open Access, accessed July 23, 2025, https://openaccess.thecvf.com/content/CVPR2022/papers/Zhu_NICE-SLAM_Neural_Implicit_Scalable_Encoding_for_SLAM_CVPR_2022_paper.pdf
  43. [2210.13641] NeRF-SLAM: Real-Time Dense Monocular SLAM with …, accessed July 23, 2025, https://ar5iv.labs.arxiv.org/html/2210.13641
  44. Publications - Luca Carlone - MIT, accessed July 23, 2025, https://lucacarlone.mit.edu/research/publications/
  45. NeRF-SLAM: Real-Time Dense Monocular SLAM with Neural Radiance Fields Request PDF - ResearchGate, accessed July 23, 2025, https://www.researchgate.net/publication/376510832_NeRF-SLAM_Real-Time_Dense_Monocular_SLAM_with_Neural_Radiance_Fields
  46. Point-SLAM: Dense Neural Point Cloud-based … - CVF Open Access, accessed July 23, 2025, https://openaccess.thecvf.com/content/ICCV2023/papers/Sandstrom_Point-SLAM_Dense_Neural_Point_Cloud-based_SLAM_ICCV_2023_paper.pdf
  47. Point-SLAM Dense Neural Point Cloud-based SLAM PDF Rendering (Computer Graphics) - Scribd, accessed July 23, 2025, https://www.scribd.com/document/882125639/Point-SLAM-Dense-Neural-Point-Cloud-based-SLAM
  48. [2506.06517] GS4: Generalizable Sparse Splatting Semantic SLAM - arXiv, accessed July 23, 2025, https://arxiv.org/abs/2506.06517
  49. A Computationally Efficient Semantic SLAM Solution for Dynamic Scenes - MDPI, accessed July 23, 2025, https://www.mdpi.com/2072-4292/11/11/1363
  50. SNI-SLAM: Semantic Neural Implicit SLAM CVF Open Access, accessed July 23, 2025, https://openaccess.thecvf.com/content/CVPR2024/papers/Zhu_SNI-SLAM_Semantic_Neural_Implicit_SLAM_CVPR_2024_paper.pdf
  51. How NeRFs and 3D Gaussian Splatting are Reshaping … - Fabio Tosi, accessed July 23, 2025, https://fabiotosi92.github.io/files/survey-slam.pdf