LIO-SAM (Lidar Inertial Odometry via Smoothing and Mapping)은 로봇의 6-DOF 상태 추정과 맵 작성을 실시간으로 수행하기 위해 LiDAR와 관성 측정 장치(IMU) 데이터를 긴밀하게 결합(Tightly-Coupled)하는 프레임워크다.1 이 방식은 LOAM(Lidar Odometry and Mapping)에서 제시된 아이디어를 계승하고 발전시킨 것으로, 각 센서의 측정치를 독립적으로 처리하여 나중에 결합하는 느슨한 결합(Loosely-Coupled) 방식과 근본적인 차이를 보인다.3 Tightly-Coupled 접근법은 두 센서에서 발생하는 측정 오차를 단일 최적화 문제 내에서 함께 최소화함으로써, 한 센서의 약점을 다른 센서의 강점으로 실시간 보완하여 전체 시스템의 정확도와 강건성을 극대화한다.3
LIO-SAM의 수학적 기반은 요인 그래프(Factor Graph)를 이용한 평활화 및 매핑(Smoothing and Mapping)이다.1 이는 로봇의 전체 궤적에 대한 최대 사후 확률(Maximum a Posteriori, MAP) 추정을 목표로 한다. 필터 기반 방식인 확장 칼만 필터(EKF)가 현재 상태만을 추정하고 과거 상태는 더 이상 고려하지 않는 반면, 요인 그래프 최적화는 특정 시간 창(window) 내의 모든 상태 변수와 측정값 간의 관계를 동시에 고려한다. 이로 인해 과거 상태에 대한 선형화 지점을 반복적으로 수정하며 최적해를 찾아갈 수 있어, 이론적으로 더 높은 정확도를 달성할 수 있는 잠재력을 가진다.5
LIO-SAM의 요인 그래프는 시스템의 상태 변수(로봇의 포즈, 속도, IMU 바이어스 등)를 노드(node)로 하고, 이 변수들 간의 제약을 요인(factor)으로 표현하는 그래프 모델이다. 시스템의 전체 상태를 추정하는 것은 이 요인들로 정의된 비용 함수를 최소화하는 비선형 최적화 문제를 푸는 것과 같다.1 주요 요인들은 다음과 같다.
IMU는 가속도와 각속도를 매우 높은 주파수(수백 Hz)로 측정한다. 매번 LiDAR 프레임이 수신될 때마다 이 모든 IMU 측정값을 다시 적분하여 최적화에 사용하는 것은 계산적으로 매우 비효율적이다. 이를 해결하기 위해 LIO-SAM은 IMU 사전적분(Pre-integration) 기법을 사용한다.2 이는 두 LiDAR 키프레임 사이의 모든 IMU 측정값을 단일 상대 모션 제약으로 요약하는 기술이다. IMU 측정 모델은 다음과 같이 표현된다 8: \(\hat{\omega}_t = \omega_t + b_t^{\omega} + n_t^{\omega} \\ \hat{a}_t = R_{WB}(t)(a_t - g) + b_t^{a} + n_t^{a}\) 여기서 $\hat{\omega}t$와 $\hat{a}_t$는 각각 IMU 몸체 좌표계에서 측정된 각속도와 가속도이며, $b_t$는 시간에 따라 천천히 변하는 바이어스, $n_t$는 백색 잡음(white noise), $R{WB}(t)$는 월드 좌표계에서 몸체 좌표계로의 회전 행렬, $g$는 월드 좌표계에서의 중력 벡터다. 두 키프레임 $i$와 $j$ 사이의 사전적분된 측정값($\Delta \hat{p}{ij}, \Delta \hat{v}{ij}, \Delta \hat{R}_{ij}$)은 IMU 바이어스가 변하지 않는 한 일정하게 유지되므로, 최적화 과정에서 바이어스 추정치가 업데이트될 때만 재계산하면 되어 계산 효율성을 크게 높인다.8 이 사전적분된 값과 최적화를 통해 추정된 키프레임 간의 실제 상태 변화량 사이의 오차가 IMU Pre-integration Factor를 구성한다.
LiDAR Odometry Factor는 포인트 클라우드 정합(registration)으로부터 얻어지는 제약이다. 먼저, IMU 사전적분 결과를 이용해 LiDAR 스캔 한 프레임이 수집되는 동안 발생한 로봇의 움직임으로 인한 포인트 클라우드의 왜곡을 보정(de-skewing)한다.1 왜곡이 보정된 포인트 클라우드에서 지역적 평활도(local smoothness)를 기준으로 곡률이 큰 Edge 특징점과 곡률이 작은 Planar 특징점을 추출한다.2
추출된 특징점들은 현재 스캔과 과거 스캔을 정합하는 scan-to-scan 방식이 아닌, 과거의 여러 키프레임들을 누적하여 만든 로컬 맵(local map)에 정합하는 scan-to-map 방식을 사용한다.2 이 과정에서 발생하는 점-선 거리(point-to-line distance)와 점-평면 거리(point-to-plane distance) 오차를 최소화하는 상대 변환이 계산되고, 이 오차가 LiDAR Odometry Factor로 요인 그래프에 추가된다.
GPS 수신이 가능할 경우, LIO-SAM은 절대 위치 정보를 요인 그래프에 추가하여 누적되는 오차를 효과적으로 보정할 수 있다.2 모든 GPS 측정값을 사용하는 대신, 특정 조건을 만족할 때만 요인을 추가한다.
config/params.yaml 파일의 gpsCovThreshold 파라미터는 GPS 측정의 공분산 값이 특정 임계치보다 작을 때만 유효한 데이터로 간주하도록 필터링하는 역할을 한다. 또한, poseCovThreshold는 현재 위치 추정의 불확실성이 특정 임계치를 넘었을 때 GPS 요인을 추가하도록 하여, 위치 추정이 불안정할 때만 GPS 보정을 수행하도록 조절한다. 이를 통해 부정확한 GPS 측정값이 시스템 전체에 미치는 악영향을 방지하고, 드리프트를 효과적으로 억제한다.10
로봇이 이전에 방문했던 장소를 다시 지나갈 때, 이를 인식하여 루프 폐쇄(Loop Closure)를 수행하는 것은 장기적인 SLAM에서 누적 오차를 제거하는 가장 중요한 과정이다. LIO-SAM은 새로운 키프레임이 생성될 때마다 과거의 키프레임들과 비교하여 루프 후보를 찾는다. 후보가 발견되면 두 키프레임 간의 상대 변환을 정밀하게 계산하고, 이를 새로운 제약(Loop Closure Factor)으로 요인 그래프에 추가한다. 이 요인은 전체 궤적의 일관성을 강제하여, 시간이 지남에 따라 축적된 드리프트를 전역적으로 보정하는 역할을 한다.1
전체 궤적과 모든 측정값을 동시에 최적화하는 것은 가장 정확한 결과를 제공하지만, 시간이 지남에 따라 계산량이 무한히 증가하여 실시간 처리가 불가능하다. LIO-SAM은 이 문제를 해결하기 위해 슬라이딩 윈도우(sliding window) 최적화 기법을 사용한다.1 이는 전체 요인 그래프 대신, 현재 시간을 기준으로 가장 최근의 고정된 개수($n$)의 키프레임으로 구성된 윈도우 내에서만 최적화를 수행하는 방식이다.
윈도우가 앞으로 이동함에 따라 가장 오래된 키프레임과 관련된 상태 변수 및 요인들은 그래프에서 제거된다. 이때 단순히 제거하는 것이 아니라, 제거되는 변수들이 나머지 변수들에게 미치는 정보를 보존하는 주변화(marginalization) 기법을 사용하여 정보 손실을 최소화한다. 이러한 슬라이딩 윈도우 접근법은 계산 복잡도를 일정하게 유지하면서도, 지역적으로는 매우 정확한 상태 추정을 가능하게 한다.1
또한, LiDAR 스캔을 글로벌 맵 전체에 정합하는 대신, $n$개의 최근 키프레임(논문에서는 $n=25$로 설정)을 모아 구성한 로컬 복셀 맵(local voxel map)에 정합한다.2 이 ‘sub-keyframes’ 접근법은 정합 대상의 크기를 제한하여 scan-matching의 실시간 성능을 보장하는 핵심적인 역할을 한다. 이처럼 LIO-SAM의 설계는 전역 최적화의 정확성과 실시간 주행계(odometry)의 속도 사이에서 실용적인 균형점을 찾으려는 공학적 타협의 결과물이다. 단기적으로는 scan-to-map 정합을 통해 높은 지역적 정확도를 유지하고, 장기적으로 누적되는 드리프트는 GPS와 루프 클로저라는 전역 제약을 통해 보정하는 하이브리드 전략을 채택함으로써, 정확도와 실시간성이라는 두 가지 목표를 동시에 달성하고자 한다.
LIO-SAM이 LiDAR-관성 융합의 견고한 기반을 마련했다면, LVI-SAM은 여기에 시각(Vision) 정보를 추가하여 다중 모드 센서 융합의 새로운 지평을 열었다. 이 진화의 핵심은 단순히 센서를 추가하는 것을 넘어, 각 센서 시스템이 서로의 약점을 유기적으로 보완하는 공생 관계를 구축하여 극한의 환경에서도 강건성을 유지하는 데 있다.
LiDAR 기반 SLAM은 3차원 구조 정보를 직접 측정하므로 매우 정확하지만, 그 성능은 환경의 기하학적 구조에 크게 의존한다. 긴 복도, 터널, 넓은 평원과 같이 특징이 반복되거나 없는 환경에서는 포인트 클라우드 정합만으로 로봇의 모든 자유도(6-DOF)를 정확하게 추정할 수 없게 되는데, 이를 퇴화(degeneracy) 현상이라 한다.11 이러한 환경에서 LiDAR SLAM은 특정 방향으로 큰 드리프트를 겪거나 실패할 수 있다.
반면, 카메라를 사용하는 시각-관성 주행계(Visual-Inertial Odometry, VIO)는 벽의 포스터나 바닥의 무늬와 같은 텍스처 정보를 활용하므로 기하학적 구조가 부족한 환경에서도 동작할 수 있다. 하지만 VIO 역시 텍스처가 없는 하얀 벽이나, 조명이 급격하게 변하거나 아예 없는 어두운 환경에서는 특징점 추적에 실패하여 취약점을 드러낸다.11 LVI-SAM은 이처럼 서로 상반된 장단점을 가진 LiDAR와 카메라를 결합하여, 한 센서가 성능 저하를 겪는 시나리오에서 다른 센서가 시스템을 보완함으로써 전체적인 강건성을 획기적으로 향상시키는 것을 목표로 한다.14
LVI-SAM의 아키텍처는 두 개의 독립적이면서도 상호 연결된 서브시스템으로 구성된다: Lidar-Inertial System (LIS)와 Visual-Inertial System (VIS).14
이 두 시스템은 각각 독립적으로 실행될 수 있다. 시스템은 각 서브시스템의 상태를 지속적으로 모니터링하며, 만약 한쪽에서 실패(e.g., VIO가 특징점 추적에 실패)가 감지되면 해당 서브시스템의 기여를 일시적으로 중단하고 다른 서브시스템만으로 위치 추정을 계속한다. 이러한 설계는 텍스처가 없는 환경(VIO 실패)과 기하학적 특징이 없는 환경(LIO 실패) 모두에서 시스템이 중단 없이 동작할 수 있도록 보장하는 핵심적인 강건성 확보 전략이다.14
LVI-SAM의 진정한 혁신은 두 서브시스템 간의 긴밀하고 양방향적인 정보 교환에 있다. 이는 단순히 각 시스템의 최종 출력값을 평균 내는 수준을 넘어, 한 시스템의 내부 추정치가 다른 시스템의 최적화 과정에 직접적인 도움을 주는 방식으로 구현된다.
이러한 상호 보완적인 관계는 일종의 ‘긍정적 피드백 루프’를 형성한다. LIS의 안정성이 VIS의 초기화를 돕고, 안정화된 VIS는 다시 LIS의 정합 성능을 향상시켜 시스템 전체의 강건성을 극대화한다.
LVI-SAM의 요인 그래프는 LIO-SAM의 요인들(IMU, LiDAR, GPS, Loop Closure)에 더해 시각적 요인(Visual Factor)을 포함하도록 확장된다.18 이 시각적 요인은 VIS에서 발생하는 재투영 오차(reprojection error)를 모델링한다.
특정 3D 맵 포인트가 $i$번째 카메라 키프레임에 투영될 때, 실제 관측된 2D 픽셀 좌표와 수학적으로 계산된 투영 좌표 사이의 차이가 재투영 오차다. $j$번째 3D 특징점 $p_j$가 $i$번째 키프레임에서 관측되었을 때의 재투영 오차 잔차(residual) $r_C$는 다음과 같이 수식으로 표현할 수 있다: \(r_C(x_i, p_j) = z_j - \pi(T_{BC} T_{WB_i}^{-1} p_j)\) 여기서 $x_i$는 $i$번째 키프레임의 상태(월드 좌표계 기준 포즈 $T_{WB_i}$ 포함), $p_j$는 월드 좌표계에서의 3D 특징점 위치, $T_{BC}$는 로봇 몸체(Body)에서 카메라(Camera)로의 외부 변환 행렬, $\pi$는 3D 포인트를 2D 이미지 평면으로 투영하는 카메라 투영 함수, $z_j$는 실제 이미지에서 관측된 특징점의 2D 픽셀 좌표다.
LVI-SAM의 최종 최적화 단계에서는 이 시각적 재투영 오차, LiDAR의 점-선/점-평면 오차, IMU 사전적분 오차, 그리고 루프 클로저 제약이 모두 단일 요인 그래프 내에서 공동으로 최소화된다.14 이를 통해 모든 센서의 정보를 종합하여 가장 확률이 높은 전역적으로 일관된 궤적과 맵을 추정하게 된다.
LIO-SAM과 LVI-SAM이 요인 그래프 최적화(smoothing) 기반의 접근법을 심화시켰다면, FAST-LIO2는 완전히 다른 방향, 즉 칼만 필터(filtering) 기반의 접근법으로 패러다임을 전환했다. 이 변화는 단순히 최적화 도구를 바꾼 것을 넘어, LIO 시스템의 핵심 가치를 ‘최고의 정확도’에서 ‘압도적인 효율성과 범용성’으로 이동시켰다. 이러한 전환은 새로운 유형의 LiDAR 센서 등장과 자율 드론과 같은 실시간 임베디드 시스템의 요구 증가라는 산업적 배경과 깊이 연관되어 있다.
상태 추정 문제를 해결하는 두 가지 주요 접근법인 평활화(smoothing)와 필터링(filtering)은 근본적인 철학의 차이를 가진다.
기존의 LOAM 계열 알고리즘들은 포인트 클라우드에서 Edge나 Planar와 같은 기하학적 특징점을 추출하여 사용했다.2 이는 처리할 데이터의 양을 줄여 계산 효율성을 높이고, 모호하지 않은 특징들을 사용해 정합의 강건성을 확보하기 위한 전략이었다. 그러나 이 방식은 몇 가지 본질적인 한계를 가진다.
FAST-LIO2는 이러한 문제를 근본적으로 해결하기 위해 특징점 추출 단계를 완전히 제거하고, 수신된 원시 포인트(raw points)를 맵에 직접 정합(direct registration)하는 “Direct” 방식을 채택했다.19 이는 환경에 존재하는 미세하고 복잡한 기하학적 정보를 버리지 않고 모두 활용하여 정확도를 높일 뿐만 아니라, 어떤 스캔 패턴을 가진 LiDAR 센서에도 별도의 튜닝 없이 바로 적용할 수 있는 뛰어난 범용성을 제공한다.
수만 개에 달하는 원시 포인트를 실시간으로 맵에 직접 정합하기 위해서는, 방대한 양의 맵 포인트를 효율적으로 저장하고, 빠르게 최근접 이웃을 검색하며, 실시간으로 맵을 업데이트할 수 있는 고성능 자료구조가 필수적이다.
FAST-LIO2는 이를 위해 새롭게 설계된 증분 k-d 트리(incremental k-d tree)인 ikd-Tree를 제안했다.19
ikd-Tree는 기존의 k-d 트리와 달리, 새로운 포인트의 삽입과 오래된 포인트의 삭제가 빈번하게 일어나는 동적인 SLAM 환경에 최적화되어 있다. 주요 특징은 다음과 같다 19:
ikd-Tree의 뛰어난 계산 효율성 덕분에, FAST-LIO2는 매 스텝마다 원시 포인트를 맵에 직접 등록하고 맵을 업데이트하는 과감한 전략을 실시간으로 수행할 수 있다. 이는 인텔 i7 CPU나 ARM 기반 프로세서와 같은 자원이 제한된 임베디드 플랫폼에서도 100 Hz에 가까운 빠른 속도로 Odometry와 Mapping을 동시에 처리하는 것을 가능하게 한다.19 결국 FAST-LIO2의 성공은 ESIKF라는 효율적인 필터링 기법, Direct라는 범용적인 정합 방식, 그리고 ikd-Tree라는 고성능 자료구조의 삼박자가 완벽하게 맞아떨어진 결과라고 할 수 있다.
LIO-SAM과 그 파생 연구들의 발전 과정은 단순히 성능을 개선하는 것을 넘어, SLAM 기술이 현실 세계에서 마주하는 근본적인 난제들, 즉 ‘퇴화(degeneracy)’와 ‘동적 환경(dynamic environments)’에 어떻게 대응해왔는지를 보여주는 역사이기도 하다. 이 문제들을 해결하는 과정에서 SLAM 시스템은 순수한 기하학적 정보에만 의존하던 것에서 벗어나, 다른 종류의 센서, 사전 지식, 그리고 시간적 맥락 등 더 풍부하고 다양한 정보를 활용하는 방향으로 진화했다.
퇴화는 SLAM 시스템이 센서 측정값으로부터 자신의 움직임을 유일하게 결정할 수 없는 상태를 의미한다. LiDAR SLAM의 경우, 이는 주로 환경의 기하학적 특징이 부족할 때 발생한다. 예를 들어, 특징 없는 긴 복도나 터널을 따라 직진할 때, 로봇은 전진 방향으로의 이동량($x$)과 좌우 편차($y$)를 포인트 클라우드 정합만으로는 명확히 구분하기 어렵다.12 또한 넓은 평지나 대칭적인 구조의 공간에서도 특정 방향의 회전이나 이동에 대한 제약이 부족하여 위치 추정의 불확실성이 급격히 증가한다.24 이러한 상황에서 IMU와 같은 보조 센서 없이는 추정 오차가 무한정 발산할 수 있다.
퇴화 현상을 수학적으로 탐지하는 가장 일반적인 방법은 scan-matching 최적화 문제의 헤시안 행렬($H$)을 분석하는 것이다.27 최적화 과정은 보통 점-평면 또는 점-선 거리 오차의 제곱 합을 최소화하는 비선형 최소제곱 문제로 공식화된다. 헤시안 행렬은 이 비용 함수의 2차 미분값으로, 오차 공간의 곡률(curvature)을 나타낸다.
헤시안 행렬의 고유값(eigenvalue)은 각 고유벡터(eigenvector) 방향으로의 오차 함수 변화율, 즉 해당 방향으로의 제약(constraint)이 얼마나 강한지를 의미한다.
| 따라서, 헤시안 행렬의 최소 고유값($\lambda_{min}$)이 특정 임계치보다 작아지거나, 최대 고유값과 최소 고유값의 비율인 조건수($\kappa(H) = | \lambda_{max} | / | \lambda_{min} | $)가 비정상적으로 커지는 것을 감지함으로써 퇴화의 발생 여부와 그 방향을 실시간으로 탐지할 수 있다.27 |
퇴화가 탐지되었을 때, 각 시스템은 서로 다른 전략으로 이에 대응한다.
대부분의 전통적인 SLAM 알고리즘은 세상이 정적(static)이라는 강력한 가정하에 설계되었다. 그러나 현실 세계는 사람, 차량 등 수많은 동적 객체로 가득 차 있다. 이러한 동적 객체들은 정합 과정에서 잘못된 데이터 연관(data association)을 유발하여 위치 추정의 정확도를 심각하게 저하시키고, 생성된 맵에 잔상(ghosting)을 남겨 오염시킨다.30
이 문제를 해결하는 가장 직관적인 방법은 ‘무엇이 움직이는 객체인지’를 알아내고, SLAM 계산 과정에서 이를 배제하는 것이다. LIO-CSI (LIO with loop Closure combined with Semantic Information)는 LIO-SAM을 기반으로 이러한 아이디어를 구현한 시스템이다.31
LIO-CSI는 딥러닝 기반의 3D 포인트 클라우드 의미론적 분할(semantic segmentation) 네트워크(e.g., SPVNAS)를 사용하여, LiDAR 포인트 클라우드의 모든 점에 ‘자동차’, ‘보행자’, ‘건물’, ‘도로’와 같은 의미론적 레이블을 부여한다.31 그 후, ‘자동차’나 ‘보행자’와 같이 움직일 가능성이 높은 카테고리로 분류된 포인트들을 특징점 추출 및 정합 과정에서 명시적으로 제거한다. 이를 통해 SLAM 시스템은 ‘건물’이나 ‘도로’와 같이 정적인 배경 구조물에만 의존하여 위치를 추정하게 되므로, 동적 객체로 인한 오차를 원천적으로 차단하고 강건성을 크게 향상시킬 수 있다.31
딥러닝 모델에 의존하지 않고 동적 객체를 처리하려는 시도도 있다. ID-LIO (LiDAR inertial odometry-based on Indexed point and Delayed removal strategy)는 LIO-SAM을 기반으로 시간적 일관성을 활용하여 동적 객체에 대응하는 프레임워크다.35
결론적으로, SLAM의 근본적인 난제인 퇴화와 동적 환경 문제는 순수한 기하학적 제약만으로는 해결하기 어렵다. LIO-SAM의 진화 과정은 이러한 한계를 극복하기 위해 다중 센서 융합(공간적 정보), 의미론적 이해(사전 지식), 그리고 시간적 일관성 분석(시간적 정보)과 같이 정보를 다각화하는 방향으로 나아가고 있음을 명확히 보여준다.
LIO-SAM 생태계는 LVI-SAM과 FAST-LIO2라는 주요 줄기 외에도, 특정 문제를 해결하거나 새로운 기술을 접목하려는 다양한 가지들로 뻗어 나가고 있다. 이러한 연구들은 SLAM 기술이 단순한 위치 추정을 넘어, 더 넓은 범위의 인식(Perception)과 안전(Safety) 문제로 확장되고 있음을 보여준다. 이는 SLAM 기술이 연구실 수준을 넘어 실제 세상의 복잡하고 예측 불가능한 문제들을 해결해야 하는 성숙 단계에 접어들었음을 의미한다.
LiDAR, IMU, 카메라 외에 다른 센서를 추가하여 특정 환경에서의 강건성을 더욱 높이려는 연구들이 진행되고 있다.
전통적인 SLAM 파이프라인은 특징 추출, 데이터 연관, 상태 추정 등 여러 모듈이 순차적으로 연결된 복잡한 구조를 가진다. 최근 딥러닝의 발전은 이 전체 과정을 하나의 거대한 신경망으로 대체하려는 종단간(end-to-end) 학습 접근법의 등장을 이끌었다.
전통적인 SLAM은 환경을 포인트 클라우드나 복셀 그리드와 같은 기하학적 형태로 표현한다. 그러나 이러한 맵은 사실적인 외형 정보를 담고 있지 않아 시뮬레이션이나 AR/VR과 같은 응용 분야에 직접 활용하기 어렵다. Neural Radiance Fields (NeRF)는 이 문제를 해결할 새로운 가능성을 제시한다.
NeRF는 여러 각도에서 촬영된 이미지들로부터 해당 장면의 연속적이고 사실적인 3D 표현을 학습하는 기술이다. 최근 연구들은 LiDAR SLAM으로 얻은 정확한 카메라 포즈와 희소한 깊이 정보를 NeRF 학습 과정에 사전 정보(prior)로 활용하고 있다.40 LiDAR는 NeRF가 기하학적으로 정확한 구조를 학습하도록 돕고, 카메라는 사실적인 텍스처와 색상을 제공한다. 이러한 융합을 통해, 단순한 기하학적 맵을 넘어, 현실과 거의 구분이 불가능한 고품질의 디지털 트윈(digital twin)을 생성할 수 있다. 이는 SLAM의 역할이 단순한 위치 추정 도구에서, 가상 세계를 창조하는 핵심 기술로 확장될 수 있음을 시사한다.
SLAM 기술이 자율주행차, 배송 로봇 등 안전이 중요한(safety-critical) 분야에 실제로 적용되기 시작하면서, 이전에는 크게 고려되지 않았던 보안과 안전성 문제가 새로운 연구 주제로 부상하고 있다.
LIO-SAM 계열 알고리즘들의 성능을 객관적으로 평가하기 위해, 자율주행 연구에서 널리 사용되는 KITTI Odometry 벤치마크 데이터셋을 기준으로 주요 알고리즘들의 성능을 비교할 수 있다.22 평가 지표로는 주로 절대 궤적 오차(Absolute Trajectory Error, ATE)가 사용되며, 이는 추정된 궤적과 실제 지상 참값(ground truth) 궤적 사이의 전역적인 차이를 나타낸다. ATE의 RMSE(Root Mean Square Error) 값이 작을수록 전반적인 정확도가 높음을 의미한다.22
아래 표는 여러 연구에서 보고된 결과를 종합하여 대표적인 시퀀스에 대한 각 알고리즘의 ATE RMSE 성능을 요약한 것이다. (참고: 이 값들은 각 논문의 실험 환경 및 파라미터 설정에 따라 다소 차이가 있을 수 있으며, 경향성을 파악하기 위한 참고 자료로 활용되어야 한다.)
| 알고리즘 (Algorithm) | 상태 추정 방식 | KITTI 00 (ATE RMSE [m]) | KITTI 05 (ATE RMSE [m]) | KITTI 07 (ATE RMSE [m]) |
|---|---|---|---|---|
| LIO-SAM | 요인 그래프 최적화 | ~1.3 - 1.5 | ~0.8 - 1.0 | ~0.6 - 0.7 |
| LVI-SAM | 요인 그래프 최적화 | ~1.1 - 1.3 | ~0.7 - 0.9 | ~0.5 - 0.6 |
| FAST-LIO2 | 반복 칼만 필터 | ~1.2 - 1.4 | ~0.8 - 1.0 | ~0.5 - 0.7 |
| LIO-CSI / ID-LIO | 요인 그래프 (동적 대응) | 동적 객체가 많은 시퀀스에서 LIO-SAM 대비 60-80% 향상 31 |
표에서 볼 수 있듯이, LVI-SAM은 시각 정보의 도움으로 LIO-SAM 대비 전반적으로 약간의 성능 향상을 보인다. FAST-LIO2는 요인 그래프 기반 방법들과 대등하거나 일부 시퀀스에서 더 나은 성능을 보여주며, 특히 압도적인 계산 효율성을 장점으로 가진다.19 LIO-CSI나 ID-LIO와 같은 동적 환경 대응 알고리즘들은 KITTI 데이터셋보다는 UrbanLoco나 UrbanNav와 같이 동적 객체가 훨씬 많은 데이터셋에서 그 진가를 발휘하며, 이러한 환경에서는 기존 LIO-SAM 대비 ATE를 60% 이상 크게 개선하는 결과를 보여준다.37
지금까지 논의된 주요 프레임워크들의 핵심적인 철학과 기술적 차이점을 요약하면 다음 표와 같다. 이 표는 각 시스템의 설계 사상을 한눈에 파악하고, 특정 응용 분야에 어떤 프레임워크가 더 적합할지 판단하는 데 도움을 줄 수 있다.
| 비교 항목 | LIO-SAM | LVI-SAM | FAST-LIO2 |
|---|---|---|---|
| 핵심 철학 | 정확성과 실시간성의 균형 | 다중 모드 융합을 통한 강건성 | 효율성 및 센서 범용성 |
| 상태 추정 방식 | 요인 그래프 최적화 (FGO) | 요인 그래프 최적화 (FGO) | 오차 상태 반복 칼만 필터 (ESIKF) |
| 포인트 클라우드 처리 | 특징점(Edge/Planar) 추출 | 특징점(Edge/Planar) 추출 | 원시 포인트 직접 사용 (Direct) |
| 핵심 자료구조 | k-d tree | k-d tree | ikd-Tree (증분 k-d 트리) |
| 퇴화 환경 대응 | IMU 요인 가중치 증가 | VIO를 통한 제약 보완 | IMU 예측에 강하게 의존 |
| 동적 객체 대응 | 기하학적 필터링 (제한적) | 기하학적 필터링 (제한적) | (기본 기능 없음) |
| 주요 장점 | 안정적이고 검증된 성능 | 퇴화/텍스처 부족 환경 강건성 | 압도적 계산 효율, 센서 범용성 |
| 주요 단점 | 퇴화 환경 취약, 센서 의존성 | 계산 복잡도 증가 | FGO 대비 이론적 정확도 한계 |
LIO-SAM은 LOAM의 아이디어를 현대적인 요인 그래프 최적화 프레임워크에 성공적으로 통합하여, Tightly-coupled LiDAR-관성 SLAM의 표준을 제시한 중요한 이정표였다. 그 이후의 발전은 크게 두 가지 뚜렷한 방향으로 전개되었다.
첫 번째 흐름은 다중 모드 융합을 통한 강건성의 극대화다. LVI-SAM은 카메라를 추가하여 LiDAR의 근본적인 약점인 기하학적 퇴화 문제를 정면으로 돌파했으며, LPVIMO-SAM과 같은 연구는 특정 실패 시나리오에 대응하기 위해 더욱 다양한 센서를 통합하는 방향으로 나아갔다. 이 흐름은 SLAM 시스템이 어떠한 악조건 속에서도 신뢰성을 잃지 않아야 한다는 요구에 부응한다.
두 번째 흐름은 알고리즘 패러다임 전환을 통한 효율성과 범용성의 확보다. FAST-LIO2는 최적화 대신 필터링을, 특징점 추출 대신 Direct 방식을 채택함으로써 계산 효율을 극대화하고 다양한 종류의 LiDAR 센서에 대한 적용 가능성을 넓혔다. 이는 SLAM 기술이 고성능 서버를 넘어 자원이 제한된 임베디드 시스템으로 확산되는 시대적 요구를 반영한다.
현재의 최신 연구들은 여기서 한 걸음 더 나아가, 동적 환경이나 보안 위협과 같은 더욱 복잡하고 근본적인 문제들을 해결하기 위해 의미론적 정보, 시간적 일관성, 그리고 보안 기술과 같은 더 높은 수준의 추상적 정보를 SLAM 파이프라인에 통합하고 있다.
미래의 LiDAR-관성 SLAM 기술은 다음과 같은 방향으로 발전할 것으로 전망된다.
결론적으로 LIO-SAM에서 시작된 기술의 궤적은 ‘어떻게 위치를 추정할 것인가’라는 문제를 넘어, ‘어떻게 주변 세계를 이해하고, 안전하게 상호작용하며, 신뢰할 수 있는 디지털 트윈을 구축할 것인가’라는 더 넓은 질문에 답하는 방향으로 진화하고 있다.