Booil Jung

NVIDIA CuVSLAM B

동시적 위치 추정 및 지도 작성(Simultaneous Localization and Mapping, SLAM)은 자율 로봇, 증강 현실(AR), 가상 현실(VR) 기기와 같은 자율 시스템의 핵심 기술로 자리 잡았습니다.1 창고 자동화부터 라스트 마일 배송에 이르기까지 다양한 응용 분야에서 자율 로봇의 배치가 증가함에 따라, 다양한 환경에서 효율적으로 작동할 수 있는 강력한 실시간 SLAM 솔루션에 대한 필요성이 시급해졌습니다.1

전통적인 SLAM 알고리즘의 상당한 계산 비용은 전력 효율적이고 자원이 제한된 엣지 컴퓨팅 장치(예: NVIDIA Jetson)에서의 실시간 작동을 주요 장애물로 만들었습니다.1 이러한 과제에 대한 NVIDIA의 해답으로 제시된 것이 바로 CuVSLAM입니다. CuVSLAM은 이러한 특정 요구사항을 해결하기 위해 특별히 설계된 최첨단 CUDA 가속 시각 SLAM(VSLAM) 시스템입니다.1

CuVSLAM과 같은 시각 SLAM 시스템의 중요성을 이해하기 위해서는, SLAM의 두 가지 주요 센서 방식인 시각(Visual)과 LiDAR를 비교 분석하는 것이 필수적입니다.

시각 SLAM (VSLAM): VSLAM은 모노, 스테레오, 또는 RGB-D 카메라를 주 센서로 사용합니다. 이 방식의 장점은 낮은 비용, 낮은 전력 소비, 그리고 풍부한 텍스처 정보를 포착할 수 있는 능력입니다.3 반면, 열악한 조명 조건, 텍스처가 부족한 환경, 빠른 움직임에 민감하다는 약점을 가집니다.3

LiDAR SLAM: LiDAR SLAM은 레이저 스캐너를 사용하여 고정밀 3D 포인트 클라우드 데이터를 생성합니다. 이 방식의 강점은 높은 정확도, 조명 변화에 대한 강인함, 그리고 직접적인 3D 측정 능력입니다.3 그러나 일반적으로 더 높은 비용과 부피(특히 기계식 LiDAR), 그리고 특정 재질이나 희소한 환경에서의 어려움이 단점으로 꼽힙니다.3

이러한 비교를 심화하기 위해, 현대 LiDAR 처리 기술인 곡선형 복셀 클러스터링(Curved-Voxel Clustering, CVC)의 원리를 간략히 살펴보겠습니다. CVC는 포인트 클라우드를 구면 좌표계의 “곡선형 복셀”로 구성하여, 특히 실시간 응용 분야에서 분할 및 클러스터링을 효율적으로 수행하는 방법입니다.10 이는 VSLAM이 경쟁하거나 보완해야 할 LiDAR 세계의 정교한 처리 파이프라인의 구체적인 예시가 됩니다.

VSLAM과 LiDAR SLAM의 대조적인 특성은 NVIDIA가 VSLAM에 막대한 투자를 하는 전략적 배경을 설명합니다. 대량 생산되는 로봇 시장(소비자, 물류, 배송 등)은 비용에 극도로 민감하며, 카메라는 보편적이고 저렴한 반면 고성능 LiDAR는 그렇지 않습니다. 따라서 카메라의 비용 효율성을 유지하면서 LiDAR에 근접하는 강인성을 갖춘 VSLAM 솔루션은 로봇 공학의 대중화를 위한 핵심 과제라 할 수 있습니다. NVIDIA의 CuVSLAM 전략은 단순히 또 다른 SLAM 알고리즘을 만드는 것을 넘어, 자사의 핵심 역량인 GPU 가속을 활용하여 VSLAM의 주요 약점(강력한 특징 추적 및 최적화를 위한 높은 계산 부하)을 극복하는 데 있습니다. 이를 통해 VSLAM을 대중 시장의 엣지 배포 로봇을 위한 실행 가능한 주 항법 센서로 만들고자 합니다. NVIDIA Jetson 플랫폼에서의 실행을 강조하는 것은 1, 이러한 엣지 로봇 시장을 전략적으로 겨냥하고 있다는 명백한 증거이며, NVIDIA는 이 고급 소프트웨어 기능을 구동하는 하드웨어를 판매하는 것을 목표로 합니다. 결론적으로, CuVSLAM은 GPU 가속 VSLAM이 다수의 고용량 로봇 응용 분야에서 더 비싼 LiDAR 센서를 대체하거나 의존도를 줄일 만큼 충분히 우수해질 수 있다는 전략적 판단을 나타냅니다.

표 1: SLAM 패러다임 비교 분석 (시각 vs. LiDAR)

특성 시각 SLAM (VSLAM) LiDAR SLAM
주요 센서 모노/스테레오/RGB-D 카메라 2D/3D LiDAR (기계식, 고체형)
데이터 유형 2D 이미지, 픽셀 강도 3D 포인트 클라우드, 거리 측정
장점 낮은 비용, 저전력, 소형, 풍부한 텍스처 정보 캡처 높은 정확도, 조명 변화에 강인함, 직접적인 3D 측정
단점 조명 변화에 민감, 텍스처 부족 환경에서 취약, 빠른 움직임에 의한 모션 블러 높은 비용, 더 큰 부피와 무게, 특정 재질에서 반사율 문제, 희소한 환경에서 어려움
대표 알고리즘 ORB-SLAM, VINS-Mono, CuVSLAM LOAM, LeGO-LOAM, CVC 기반 SLAM

CuVSLAM의 설계는 몇 가지 핵심 원칙을 기반으로 합니다. 이는 기존 VSLAM 시스템의 한계를 극복하고 현대 로봇 공학의 요구 사항을 충족시키기 위해 고안되었습니다.

CuVSLAM의 프론트엔드는 실시간 성능과 로컬 경로의 부드러움을 최우선으로 설계되었습니다.

프론트엔드가 즉각적인 움직임을 처리하는 동안, 백엔드는 장기적인 일관성을 보장하는 역할을 합니다.

이러한 프론트엔드와 백엔드의 분리는 단순한 계산상의 편의가 아닙니다. 이는 로봇의 즉각적인 움직임 추정을 잠재적으로 파괴적인 전역 맵 보정으로부터 분리함으로써 실제 로봇 제어에 CuVSLAM을 더 실용적으로 만드는 핵심 설계 특징입니다. 드론이나 이동식 매니퓰레이터와 같은 많은 로봇 응용 분야는 매우 안정적이고 고주파의 저지연 주행거리 측정 소스를 필요로 합니다. 루프 클로저 보정이 즉시 적용될 때 발생할 수 있는 갑작스러운 포즈 추정의 “점프”는 로봇의 제어기를 불안정하게 만들 수 있습니다. 두 부분을 분리함으로써 CuVSLAM은 두 개의 구별되는 출력을 제공할 수 있습니다: 프론트엔드로부터의 고주파의 부드러운 odom_frame과 백엔드로부터의 저주파의 전역적으로 보정된 map_frame입니다.16 개발자는 실시간 제어 루프에는 부드러운 주행거리를 사용하고, 장기적인 항법이나 임무 계획과 같은 상위 수준의 작업에는 전역적으로 일관된 맵 포즈를 사용할 수 있습니다. 이 아키텍처 선택은 개발자에게 이 두 참조 프레임을 관리하는 복잡성을 추가하더라도, 실제 로봇 공학을 위한 시스템의 유용성을 극대화하는 실용적인 엔지니어링 결정입니다.

CuVSLAM은 단일 센서 시스템이 달성할 수 있는 것보다 높은 성능과 신뢰도를 달성하기 위해 여러 센서의 데이터를 통합합니다.

VIO가 중요한 기능임은 분명하지만, 대규모 다중 카메라 지원으로의 아키텍처적 도약은 까다로운 실제 환경에서 강력하고 지속적인 추적을 달성하기 위한 CuVSLAM의 주요 전략입니다. IMU는 전술적이고 단기적인 보조 수단인 반면, 다중 카메라는 전략적이고 장기적인 해결책입니다. IMU의 오차는 시각적 보정 없이는 시간이 지남에 따라 세제곱으로 증가합니다. 문서화된 약 1초의 생존 시간 16은 IMU가 순간적인 시각적 끊김(예: 단일 흐릿한 프레임, 짧은 그림자 아래를 통과)에 대한 해결책일 뿐임을 확인시켜 줍니다. 이는 길고 특징 없는 흰색 복도를 탐색하는 것과 같은 장기적인 추적 손실을 해결할 수 없습니다. 그러나 다중 카메라 설정은 근본적으로 문제를 바꿉니다. 카메라를 다른 방향(예: 전방 및 측면)으로 배치함으로써 로봇은 항상 적어도 하나의 카메라가 특징이 풍부한 영역을 관찰할 가능성이 훨씬 높아집니다. NVIDIA 자체 튜토리얼은 다중 카메라 설정의 예를 제공하며 16, 문서는 그것이 “특히 특징 없는 환경에서 강인성을 크게 높일 수 있다”고 명시적으로 언급합니다.16 한 개발자 노트는 또한 “장기적인 카메라 폐색 시나리오에 대한 실제 해결책은 다중 카메라 모드”라고 제안합니다.17

CuVSLAM의 성능은 널리 인정받는 학술 벤치마크를 통해 엄격하게 평가되었습니다.

CuVSLAM의 핵심 가치는 정확성뿐만 아니라, 특히 엣지 장치에서의 압도적인 처리 속도에 있습니다.

표 2: 하드웨어 플랫폼별 CuVSLAM 계산 처리량 (720p 해상도 기준)

하드웨어 플랫폼 GPU 유형 보고된 처리량 (fps) 출처
데스크탑 워크스테이션 NVIDIA RTX 4060 Ti 386 14
임베디드 보드 NVIDIA Jetson Orin AGX 64GB 232 14
임베디드 보드 NVIDIA Jetson Orin Nano 8G 116 14

CuVSLAM은 널리 사용되는 다른 VSLAM 시스템과 비교하여 그 성능과 위치를 평가할 수 있습니다.

표 3: 표준 벤치마크에서의 CuVSLAM 성능 비교 (절대 궤적 오차 - ATE)

알고리즘 유형 주요 특징 KITTI 성능 (번역 오차) EuRoC 성능 (위치 오차)
CuVSLAM 특징 기반 VIO/VSLAM CUDA 가속, 다중 카메라, 폐쇄 소스 < 1% 5 < 5 cm 5
ORB-SLAM3 특징 기반 VIO/VSLAM 다중 맵, 다중 센서, 오픈 소스 우수, CuVSLAM에 근접/약간 하회 우수, 널리 사용되는 기준
VINS-Mono 최적화 기반 VIO 모노+IMU, 높은 정확도, 오픈 소스 우수, VIO 벤치마크 기준 매우 우수
SOFT-SLAM2 직접법 기반 VSLAM 학술적 SOTA, Matlab, 비실시간 < CuVSLAM 14 -

이러한 비교는 “성능 대 실용성”의 균형을 잘 보여줍니다. CuVSLAM은 실용적인 오픈 소스 표준(ORB-SLAM2)을 능가하지만, 순수 정확도 지표에서는 이론적인 최첨단(SOFT-SLAM)에 뒤처집니다.14 그러나 배포 가능한 하드웨어에서 훨씬 우수한 실시간 처리량으로 이를 달성합니다.14 SLAM 연구는 종종 벤치마크에서 기록적인 정확도를 달성하지만 임베디드 시스템에서의 실시간 성능이나 배포를 위해 설계되지 않은 알고리즘을 생산합니다. CuVSLAM의 설계 철학은 다릅니다. 그것은 목표 하드웨어에서

매우 정확하면서도 극도로 성능이 뛰어난 “최적점”을 목표로 합니다. 목표는 어떤 대가를 치르더라도 벤치마크 순위표에서 이기는 것이 아니라, 실제 제품에서 실제로 사용 가능한 최상의 성능을 제공하는 것입니다. Jetson Nano에서 100 FPS 이상을 달성하는 것은 실용적인 배포에 대한 이러한 집중을 증명합니다. 따라서 CuVSLAM의 경쟁력은 단순히 정확도 점수에 있는 것이 아니라, 상업적으로 이용 가능한 엣지 하드웨어에서의 정확도 대 성능 비율에 있습니다. 이는 순전히 학술적인, 오프라인 정확도 기록보다 배포 가능한 실시간 우수성을 우선시합니다.

CuVSLAM은 NVIDIA의 로봇 공학 플랫폼에 깊숙이 통합되어 개발자에게 강력한 도구 모음을 제공합니다.

문서와 커뮤니티 토론에서는 좋은 성능을 위해 몇 가지 중요한 요소를 강력하게 강조합니다.22

NVIDIA Isaac 생태계는 개발자에게 엄청난 실용적 가치를 제공하는 동시에 강력한 형태의 공급업체 종속(vendor lock-in)을 만듭니다. NVIDIA는 완전한 엔드투엔드 도구 체인을 제공함으로써 개발자가 고성능 VSLAM 시스템을 시작하는 것을 믿을 수 없을 정도로 쉽게 만듭니다. 이는 이질적인 오픈 소스 구성 요소를 통합하는 것과 비교하여 개발 시간과 마찰을 크게 줄입니다. 이러한 사용 용이성과 긴밀한 통합은 강력한 “해자(moat)”를 만듭니다. Isaac 생태계를 배우는 데 시간을 투자한 개발자는 소프트웨어가 최적화되어 있기 때문에 배포를 위해 NVIDIA 하드웨어(Jetson, GPU)를 계속 사용할 가능성이 더 높습니다. PyCuVSLAM의 출시는 22 이 해자를 넓히기 위한 전략적 움직임입니다. 이는 ROS 전문가가 아닐 수 있는 파이썬 기반 AI/ML 연구자들의 큰 커뮤니티를 포착하여 NVIDIA 소프트웨어 스택으로 끌어들입니다. 핵심 라이브러리의 비공개 소스 특성은 14 최고 수준의 성능이 이 생태계에 독점적으로 묶여 있도록 보장합니다.

CuVSLAM은 강력한 도구이지만, 사용자는 그 한계를 명확히 인지해야 합니다.

CuVSLAM은 더 넓은 기술 트렌드의 일부이며, 이 분야는 계속해서 빠르게 발전하고 있습니다.

본 보고서의 분석을 종합하면, CuVSLAM은 혁명적인 새로운 SLAM 이론이라기보다는 시스템 엔지니어링의 기념비적인 성과로 평가할 수 있습니다. 주요 기여는 고정밀, 고성능 VSLAM을 엣지 컴퓨팅 하드웨어에서 실용적이고 배포 가능한 현실로 만든 것입니다. 이는 특히 이미 NVIDIA 하드웨어 및 소프트웨어 생태계에 전념하고 있는 개발자들을 위한, 더 큰 항법 스택 내의 시각-관성 주행거리 측정을 위한 동급 최고의 구성 요소로 자리매김하고 있습니다.

CuVSLAM은 하드웨어 공동 설계를 통해 고전적인 특징 기반 VSLAM의 성능을 실용적인 한계까지 밀어붙였습니다. 강인성의 다음 개척지는 고전 기하학이 실패하는 영역, 즉 동적 환경(움직이는 자동차, 사람)과 의미론적 이해(의자가 움직여도 의자라는 것을 아는 것)에 있습니다. 이것이 딥러닝의 강점입니다. 미래의 최고 수준 SLAM 시스템은 CuVSLAM처럼 기하학적 계산뿐만 아니라 특징 추출, 분할 및 재위치 추정을 위한 딥러닝 모델의 추론 실행에도 GPU 가속을 사용하는 “하이브리드” 31가 될 가능성이 높습니다. NVIDIA는 GPU 하드웨어 및 AI 소프트웨어(CUDA, TensorRT) 분야의 선두 주자로서 이러한 변화에 완벽하게 대비하고 있습니다. CuVSLAM의 미래 버전이나 그 후속 제품이 AI 기반 모듈을 통합할 가능성이 매우 높으며, NVIDIA는 이미 FoundationStereo와 같은 라이브러리로 그 기반을 구축하고 있습니다.25

최종적으로, 오픈 소스 대안들이 더 많은 투명성과 유연성을 제공하지만, CuVSLAM은 목표 플랫폼에서 현재 타의 추종을 불허하는 수준의 성능과 통합 용이성을 제공합니다. 이는 차세대 자율 로봇을 구축하기 위한 강력하지만 전문화된 도구를 대표합니다.

  1. cuVSLAM: CUDA accelerated visual odometry and mapping - arXiv, accessed July 19, 2025, https://arxiv.org/html/2506.04359v1
  2. NVIDIA-ISAAC-ROS/isaac_ros_visual_slam: Visual SLAM/odometry package based on NVIDIA-accelerated cuVSLAM - GitHub, accessed July 19, 2025, https://github.com/NVIDIA-ISAAC-ROS/isaac_ros_visual_slam
  3. Innovations and Refinements in LiDAR Odometry and Mapping: A Comprehensive Review, accessed July 19, 2025, https://www.ieee-jas.net/en/article/doi/10.1109/JAS.2025.125198
  4. SuperNoVA: Algorithm-Hardware Co-Design for Resource-Aware SLAM - People @EECS, accessed July 19, 2025, https://people.eecs.berkeley.edu/~ysshao/assets/papers/supernova-asplos2025.pdf
  5. cuVSLAM: CUDA accelerated visual odometry and mapping - arXiv, accessed July 19, 2025, https://arxiv.org/html/2506.04359v3
  6. Introducing SLAMBench, a performance and accuracy benchmarking methodology for SLAM - arXiv, accessed July 19, 2025, https://arxiv.org/pdf/1410.2167
  7. [2506.04359] cuVSLAM: CUDA accelerated visual odometry and mapping - arXiv, accessed July 19, 2025, https://arxiv.org/abs/2506.04359
  8. A Review of Simultaneous Localization and Mapping Algorithms Based on Lidar - MDPI, accessed July 19, 2025, https://www.mdpi.com/2032-6653/16/2/56
  9. (PDF) A Comprehensive Survey of Visual SLAM Algorithms - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/publication/358523574_A_Comprehensive_Survey_of_Visual_SLAM_Algorithms
  10. LIDAR-Inertial Real-Time State Estimator with Rod-Shaped and Planar Feature - MDPI, accessed July 19, 2025, https://www.mdpi.com/2072-4292/14/16/4031
  11. A Review of Research on SLAM Technology Based on the Fusion of LiDAR and Vision, accessed July 19, 2025, https://www.mdpi.com/1424-8220/25/5/1447
  12. Curved-Voxel Clustering for Accurate Segmentation of 3D LiDAR Point Clouds with Real-Time Performance - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/publication/338938419_Curved-Voxel_Clustering_for_Accurate_Segmentation_of_3D_LiDAR_Point_Clouds_with_Real-Time_Performance
  13. Curved-Voxel Clustering for Accurate Segmentation of 3D LiDAR Point Clouds with Real-Time Performance - Data Mining Lab, accessed July 19, 2025, https://datalab.snu.ac.kr/~ukang/papers/cvcIROS19.pdf
  14. NVIDIA Isaac ROS In-Depth: cuVSLAM and the DP3.1 Release - Intermodalics, accessed July 19, 2025, https://www.intermodalics.ai/blog/nvidia-isaac-ros-in-depth-cuvslam-and-the-dp3-1-release
  15. cuVSLAM: CUDA accelerated visual odometry and mapping, accessed July 19, 2025, https://arxiv.org/html/2506.04359v2
  16. cuVSLAM - isaac_ros_docs documentation - NVIDIA Isaac ROS, accessed July 19, 2025, https://nvidia-isaac-ros.github.io/concepts/visual_slam/cuvslam/index.html
  17. cuVSLAM pose jump - Isaac ROS - NVIDIA Developer Forums, accessed July 19, 2025, https://forums.developer.nvidia.com/t/cuvslam-pose-jump/335063
  18. CuVSlam system and Robot position prediction accuracy - NVIDIA Developer Forums, accessed July 19, 2025, https://forums.developer.nvidia.com/t/cuvslam-system-and-robot-position-prediction-accuracy/285741
  19. A Comparison of Monocular Visual SLAM and Visual Odometry Methods Applied to 3D Reconstruction - MDPI, accessed July 19, 2025, https://www.mdpi.com/2076-3417/13/15/8837
  20. [2108.01654] Comparison of modern open-source Visual SLAM approaches - ar5iv - arXiv, accessed July 19, 2025, https://ar5iv.labs.arxiv.org/html/2108.01654
  21. [Nav2] A Comparison of Modern General-Purpose Visual SLAM Approaches, accessed July 19, 2025, https://discourse.ros.org/t/nav2-a-comparison-of-modern-general-purpose-visual-slam-approaches/21451
  22. NVlabs/PyCuVSLAM: Highly accurate and efficient VSLAM system for Python - GitHub, accessed July 19, 2025, https://github.com/NVlabs/PyCuVSLAM
  23. Tutorial for Visual SLAM with Isaac Sim - isaac_ros_docs documentation, accessed July 19, 2025, https://nvidia-isaac-ros.github.io/concepts/visual_slam/cuvslam/tutorial_isaac_sim.html
  24. isaac_ros_nvblox/nvblox_examples/nvblox_examples_bringup/launch/perception/vslam.launch.py at main / NVIDIA-ISAAC-ROS/isaac_ros_nvblox - GitHub, accessed July 19, 2025, https://github.com/NVIDIA-ISAAC-ROS/isaac_ros_nvblox/blob/main/nvblox_examples/nvblox_examples_bringup/launch/perception/vslam.launch.py
  25. R²D²: Building AI-based 3D Robot Perception and Mapping with NVIDIA Research, accessed July 19, 2025, https://developer.nvidia.com/blog/r2d2-building-ai-based-3d-robot-perception-and-mapping-with-nvidia-research/
  26. Advancing Robot Learning, Perception, and Manipulation with Latest NVIDIA Isaac Release, accessed July 19, 2025, https://developer.nvidia.com/blog/advancing-robot-learning-perception-and-manipulation-with-latest-nvidia-isaac-release/
  27. Issues / NVIDIA-ISAAC-ROS/isaac_ros_visual_slam - GitHub, accessed July 19, 2025, https://github.com/NVIDIA-ISAAC-ROS/isaac_ros_visual_slam/issues
  28. cuVSLAM Documentation - Isaac ROS - NVIDIA Developer Forums, accessed July 19, 2025, https://forums.developer.nvidia.com/t/cuvslam-documentation/281704
  29. [2410.21149] coVoxSLAM: GPU Accelerated Globally Consistent Dense SLAM - arXiv, accessed July 19, 2025, https://arxiv.org/abs/2410.21149
  30. coVoxSLAM: GPU accelerated globally consistent dense SLAM - arXiv, accessed July 19, 2025, https://arxiv.org/html/2410.21149v1
  31. A real-time, robust and versatile visual-SLAM framework based on deep learning networks, accessed July 19, 2025, https://arxiv.org/html/2405.03413v3
  32. YG-SLAM: GPU-Accelerated RGBD-SLAM Using YOLOv5 in a Dynamic Environment - MDPI, accessed July 19, 2025, https://www.mdpi.com/2079-9292/12/20/4377
  33. CuVSLAM: Real-time Visual Positioning For Robots With Multiple Cameras, accessed July 19, 2025, https://quantumzeitgeist.com/cuvslam-real-time-visual-positioning-for-robots-with-multiple-cameras/