Booil Jung

LIO-SAM

LIO-SAM (Lidar Inertial Odometry via Smoothing and Mapping)은 로봇의 6-DOF 상태 추정과 맵 작성을 실시간으로 수행하기 위해 LiDAR와 관성 측정 장치(IMU) 데이터를 긴밀하게 결합(Tightly-Coupled)하는 프레임워크다.1 이 방식은 LOAM(Lidar Odometry and Mapping)에서 제시된 아이디어를 계승하고 발전시킨 것으로, 각 센서의 측정치를 독립적으로 처리하여 나중에 결합하는 느슨한 결합(Loosely-Coupled) 방식과 근본적인 차이를 보인다.3 Tightly-Coupled 접근법은 두 센서에서 발생하는 측정 오차를 단일 최적화 문제 내에서 함께 최소화함으로써, 한 센서의 약점을 다른 센서의 강점으로 실시간 보완하여 전체 시스템의 정확도와 강건성을 극대화한다.3

LIO-SAM의 수학적 기반은 요인 그래프(Factor Graph)를 이용한 평활화 및 매핑(Smoothing and Mapping)이다.1 이는 로봇의 전체 궤적에 대한 최대 사후 확률(Maximum a Posteriori, MAP) 추정을 목표로 한다. 필터 기반 방식인 확장 칼만 필터(EKF)가 현재 상태만을 추정하고 과거 상태는 더 이상 고려하지 않는 반면, 요인 그래프 최적화는 특정 시간 창(window) 내의 모든 상태 변수와 측정값 간의 관계를 동시에 고려한다. 이로 인해 과거 상태에 대한 선형화 지점을 반복적으로 수정하며 최적해를 찾아갈 수 있어, 이론적으로 더 높은 정확도를 달성할 수 있는 잠재력을 가진다.5

LIO-SAM의 요인 그래프는 시스템의 상태 변수(로봇의 포즈, 속도, IMU 바이어스 등)를 노드(node)로 하고, 이 변수들 간의 제약을 요인(factor)으로 표현하는 그래프 모델이다. 시스템의 전체 상태를 추정하는 것은 이 요인들로 정의된 비용 함수를 최소화하는 비선형 최적화 문제를 푸는 것과 같다.1 주요 요인들은 다음과 같다.

IMU는 가속도와 각속도를 매우 높은 주파수(수백 Hz)로 측정한다. 매번 LiDAR 프레임이 수신될 때마다 이 모든 IMU 측정값을 다시 적분하여 최적화에 사용하는 것은 계산적으로 매우 비효율적이다. 이를 해결하기 위해 LIO-SAM은 IMU 사전적분(Pre-integration) 기법을 사용한다.2 이는 두 LiDAR 키프레임 사이의 모든 IMU 측정값을 단일 상대 모션 제약으로 요약하는 기술이다. IMU 측정 모델은 다음과 같이 표현된다 8: $\hat{\omega}_t = \omega_t + b_t^{\omega} + n_t^{\omega} \\ \hat{a}_t = R_{WB}(t)(a_t - g) + b_t^{a} + n_t^{a}$ 여기서 $\hat{\omega}t$와 $\hat{a}_t$는 각각 IMU 몸체 좌표계에서 측정된 각속도와 가속도이며, $b_t$는 시간에 따라 천천히 변하는 바이어스, $n_t$는 백색 잡음(white noise), $R{WB}(t)$는 월드 좌표계에서 몸체 좌표계로의 회전 행렬, $g$는 월드 좌표계에서의 중력 벡터다. 두 키프레임 $i$와 $j$ 사이의 사전적분된 측정값($\Delta \hat{p}{ij}, \Delta \hat{v}{ij}, \Delta \hat{R}_{ij}$)은 IMU 바이어스가 변하지 않는 한 일정하게 유지되므로, 최적화 과정에서 바이어스 추정치가 업데이트될 때만 재계산하면 되어 계산 효율성을 크게 높인다.8 이 사전적분된 값과 최적화를 통해 추정된 키프레임 간의 실제 상태 변화량 사이의 오차가 IMU Pre-integration Factor를 구성한다.

LiDAR Odometry Factor는 포인트 클라우드 정합(registration)으로부터 얻어지는 제약이다. 먼저, IMU 사전적분 결과를 이용해 LiDAR 스캔 한 프레임이 수집되는 동안 발생한 로봇의 움직임으로 인한 포인트 클라우드의 왜곡을 보정(de-skewing)한다.1 왜곡이 보정된 포인트 클라우드에서 지역적 평활도(local smoothness)를 기준으로 곡률이 큰 Edge 특징점과 곡률이 작은 Planar 특징점을 추출한다.2

추출된 특징점들은 현재 스캔과 과거 스캔을 정합하는 scan-to-scan 방식이 아닌, 과거의 여러 키프레임들을 누적하여 만든 로컬 맵(local map)에 정합하는 scan-to-map 방식을 사용한다.2 이 과정에서 발생하는 점-선 거리(point-to-line distance)와 점-평면 거리(point-to-plane distance) 오차를 최소화하는 상대 변환이 계산되고, 이 오차가 LiDAR Odometry Factor로 요인 그래프에 추가된다.

GPS 수신이 가능할 경우, LIO-SAM은 절대 위치 정보를 요인 그래프에 추가하여 누적되는 오차를 효과적으로 보정할 수 있다.2 모든 GPS 측정값을 사용하는 대신, 특정 조건을 만족할 때만 요인을 추가한다.

config/params.yaml 파일의 gpsCovThreshold 파라미터는 GPS 측정의 공분산 값이 특정 임계치보다 작을 때만 유효한 데이터로 간주하도록 필터링하는 역할을 한다. 또한, poseCovThreshold는 현재 위치 추정의 불확실성이 특정 임계치를 넘었을 때 GPS 요인을 추가하도록 하여, 위치 추정이 불안정할 때만 GPS 보정을 수행하도록 조절한다. 이를 통해 부정확한 GPS 측정값이 시스템 전체에 미치는 악영향을 방지하고, 드리프트를 효과적으로 억제한다.10

로봇이 이전에 방문했던 장소를 다시 지나갈 때, 이를 인식하여 루프 폐쇄(Loop Closure)를 수행하는 것은 장기적인 SLAM에서 누적 오차를 제거하는 가장 중요한 과정이다. LIO-SAM은 새로운 키프레임이 생성될 때마다 과거의 키프레임들과 비교하여 루프 후보를 찾는다. 후보가 발견되면 두 키프레임 간의 상대 변환을 정밀하게 계산하고, 이를 새로운 제약(Loop Closure Factor)으로 요인 그래프에 추가한다. 이 요인은 전체 궤적의 일관성을 강제하여, 시간이 지남에 따라 축적된 드리프트를 전역적으로 보정하는 역할을 한다.1

전체 궤적과 모든 측정값을 동시에 최적화하는 것은 가장 정확한 결과를 제공하지만, 시간이 지남에 따라 계산량이 무한히 증가하여 실시간 처리가 불가능하다. LIO-SAM은 이 문제를 해결하기 위해 슬라이딩 윈도우(sliding window) 최적화 기법을 사용한다.1 이는 전체 요인 그래프 대신, 현재 시간을 기준으로 가장 최근의 고정된 개수($n$)의 키프레임으로 구성된 윈도우 내에서만 최적화를 수행하는 방식이다.

윈도우가 앞으로 이동함에 따라 가장 오래된 키프레임과 관련된 상태 변수 및 요인들은 그래프에서 제거된다. 이때 단순히 제거하는 것이 아니라, 제거되는 변수들이 나머지 변수들에게 미치는 정보를 보존하는 주변화(marginalization) 기법을 사용하여 정보 손실을 최소화한다. 이러한 슬라이딩 윈도우 접근법은 계산 복잡도를 일정하게 유지하면서도, 지역적으로는 매우 정확한 상태 추정을 가능하게 한다.1

또한, LiDAR 스캔을 글로벌 맵 전체에 정합하는 대신, $n$개의 최근 키프레임(논문에서는 $n=25$로 설정)을 모아 구성한 로컬 복셀 맵(local voxel map)에 정합한다.2 이 ‘sub-keyframes’ 접근법은 정합 대상의 크기를 제한하여 scan-matching의 실시간 성능을 보장하는 핵심적인 역할을 한다. 이처럼 LIO-SAM의 설계는 전역 최적화의 정확성과 실시간 주행계(odometry)의 속도 사이에서 실용적인 균형점을 찾으려는 공학적 타협의 결과물이다. 단기적으로는 scan-to-map 정합을 통해 높은 지역적 정확도를 유지하고, 장기적으로 누적되는 드리프트는 GPS와 루프 클로저라는 전역 제약을 통해 보정하는 하이브리드 전략을 채택함으로써, 정확도와 실시간성이라는 두 가지 목표를 동시에 달성하고자 한다.

LIO-SAM이 LiDAR-관성 융합의 견고한 기반을 마련했다면, LVI-SAM은 여기에 시각(Vision) 정보를 추가하여 다중 모드 센서 융합의 새로운 지평을 열었다. 이 진화의 핵심은 단순히 센서를 추가하는 것을 넘어, 각 센서 시스템이 서로의 약점을 유기적으로 보완하는 공생 관계를 구축하여 극한의 환경에서도 강건성을 유지하는 데 있다.

LiDAR 기반 SLAM은 3차원 구조 정보를 직접 측정하므로 매우 정확하지만, 그 성능은 환경의 기하학적 구조에 크게 의존한다. 긴 복도, 터널, 넓은 평원과 같이 특징이 반복되거나 없는 환경에서는 포인트 클라우드 정합만으로 로봇의 모든 자유도(6-DOF)를 정확하게 추정할 수 없게 되는데, 이를 퇴화(degeneracy) 현상이라 한다.11 이러한 환경에서 LiDAR SLAM은 특정 방향으로 큰 드리프트를 겪거나 실패할 수 있다.

반면, 카메라를 사용하는 시각-관성 주행계(Visual-Inertial Odometry, VIO)는 벽의 포스터나 바닥의 무늬와 같은 텍스처 정보를 활용하므로 기하학적 구조가 부족한 환경에서도 동작할 수 있다. 하지만 VIO 역시 텍스처가 없는 하얀 벽이나, 조명이 급격하게 변하거나 아예 없는 어두운 환경에서는 특징점 추적에 실패하여 취약점을 드러낸다.11 LVI-SAM은 이처럼 서로 상반된 장단점을 가진 LiDAR와 카메라를 결합하여, 한 센서가 성능 저하를 겪는 시나리오에서 다른 센서가 시스템을 보완함으로써 전체적인 강건성을 획기적으로 향상시키는 것을 목표로 한다.14

LVI-SAM의 아키텍처는 두 개의 독립적이면서도 상호 연결된 서브시스템으로 구성된다: Lidar-Inertial System (LIS)와 Visual-Inertial System (VIS).14

Lidar-Inertial System (LIS): LIO-SAM의 코드를 기반으로 하며, LiDAR와 IMU 데이터를 융합하여 상태를 추정한다.17
Visual-Inertial System (VIS): 대표적인 VIO 알고리즘인 VINS-Mono의 코드를 기반으로 하며, 카메라와 IMU 데이터를 융합한다.17

이 두 시스템은 각각 독립적으로 실행될 수 있다. 시스템은 각 서브시스템의 상태를 지속적으로 모니터링하며, 만약 한쪽에서 실패(e.g., VIO가 특징점 추적에 실패)가 감지되면 해당 서브시스템의 기여를 일시적으로 중단하고 다른 서브시스템만으로 위치 추정을 계속한다. 이러한 설계는 텍스처가 없는 환경(VIO 실패)과 기하학적 특징이 없는 환경(LIO 실패) 모두에서 시스템이 중단 없이 동작할 수 있도록 보장하는 핵심적인 강건성 확보 전략이다.14

LVI-SAM의 진정한 혁신은 두 서브시스템 간의 긴밀하고 양방향적인 정보 교환에 있다. 이는 단순히 각 시스템의 최종 출력값을 평균 내는 수준을 넘어, 한 시스템의 내부 추정치가 다른 시스템의 최적화 과정에 직접적인 도움을 주는 방식으로 구현된다.

LIS가 VIS를 돕는 방법: VIO 시스템이 안정적으로 동작하기 위해 가장 어렵고 중요한 단계 중 하나는 초기화(initialization) 과정이다. 이 과정에서는 움직이는 카메라 영상만으로 미터(meter) 단위의 실제 스케일, 중력의 방향, 초기 속도, 그리고 IMU 바이어스를 정확하게 추정해야 한다. LIS는 LiDAR를 통해 정확한 스케일 정보를 얻을 수 있으므로, LIS에서 추정된 상태 변수($x$)와 IMU 바이어스($b$)를 VIS에 제공함으로써 VIS의 초기화 과정을 매우 빠르고 안정적으로 만들어준다.14 또한, LIS의 3D 포인트 클라우드 데이터를 VIS의 2D 이미지 특징점에 투영하여 깊이(depth) 정보를 부여할 수 있다. 이는 VIO가 3D 구조를 더 정확하게 파악하게 하여 전체적인 정확도를 향상시킨다.15
VIS가 LIS를 돕는 방법: LIS의 LiDAR scan-matching 과정은 좋은 초기 추정값(initial guess)이 주어졌을 때 더 빠르고 정확하게 수렴한다. VIS는 카메라의 높은 프레임률을 바탕으로 상대적으로 부드러운 모션 추정치를 제공할 수 있다. VIS에서 계산된 Visual Odometry 결과는 LIS가 새로운 LiDAR 스캔을 로컬 맵에 정합하기 위한 초기 추정값으로 사용된다. 이는 특히 로봇이 빠르게 회전하거나 움직일 때 LiDAR 정합이 지역 최솟값(local minima)에 빠지는 것을 방지하고 최적화의 성공률을 높인다.14
협력적 루프 폐쇄: 장소 인식(Place Recognition)은 일반적으로 텍스처 정보가 풍부한 이미지를 사용하는 것이 계산적으로 더 효율적이다. 따라서 LVI-SAM에서는 루프 폐쇄 후보를 먼저 VIS가 식별한다. 일단 후보가 식별되면, 기하학적으로 더 정밀한 LIS가 해당 위치의 포인트 클라우드를 이용하여 정확한 상대 변환을 계산하고 요인 그래프를 최적화한다. 이는 각 센서의 장점을 극대화한 효율적인 협력 방식이다.14

이러한 상호 보완적인 관계는 일종의 ‘긍정적 피드백 루프’를 형성한다. LIS의 안정성이 VIS의 초기화를 돕고, 안정화된 VIS는 다시 LIS의 정합 성능을 향상시켜 시스템 전체의 강건성을 극대화한다.

LVI-SAM의 요인 그래프는 LIO-SAM의 요인들(IMU, LiDAR, GPS, Loop Closure)에 더해 시각적 요인(Visual Factor)을 포함하도록 확장된다.18 이 시각적 요인은 VIS에서 발생하는 재투영 오차(reprojection error)를 모델링한다.

특정 3D 맵 포인트가 $i$번째 카메라 키프레임에 투영될 때, 실제 관측된 2D 픽셀 좌표와 수학적으로 계산된 투영 좌표 사이의 차이가 재투영 오차다. $j$번째 3D 특징점 $p_j$가 $i$번째 키프레임에서 관측되었을 때의 재투영 오차 잔차(residual) $r_C$는 다음과 같이 수식으로 표현할 수 있다: $r_C(x_i, p_j) = z_j - \pi(T_{BC} T_{WB_i}^{-1} p_j)$ 여기서 $x_i$는 $i$번째 키프레임의 상태(월드 좌표계 기준 포즈 $T_{WB_i}$ 포함), $p_j$는 월드 좌표계에서의 3D 특징점 위치, $T_{BC}$는 로봇 몸체(Body)에서 카메라(Camera)로의 외부 변환 행렬, $\pi$는 3D 포인트를 2D 이미지 평면으로 투영하는 카메라 투영 함수, $z_j$는 실제 이미지에서 관측된 특징점의 2D 픽셀 좌표다.

LVI-SAM의 최종 최적화 단계에서는 이 시각적 재투영 오차, LiDAR의 점-선/점-평면 오차, IMU 사전적분 오차, 그리고 루프 클로저 제약이 모두 단일 요인 그래프 내에서 공동으로 최소화된다.14 이를 통해 모든 센서의 정보를 종합하여 가장 확률이 높은 전역적으로 일관된 궤적과 맵을 추정하게 된다.

LIO-SAM과 LVI-SAM이 요인 그래프 최적화(smoothing) 기반의 접근법을 심화시켰다면, FAST-LIO2는 완전히 다른 방향, 즉 칼만 필터(filtering) 기반의 접근법으로 패러다임을 전환했다. 이 변화는 단순히 최적화 도구를 바꾼 것을 넘어, LIO 시스템의 핵심 가치를 ‘최고의 정확도’에서 ‘압도적인 효율성과 범용성’으로 이동시켰다. 이러한 전환은 새로운 유형의 LiDAR 센서 등장과 자율 드론과 같은 실시간 임베디드 시스템의 요구 증가라는 산업적 배경과 깊이 연관되어 있다.

상태 추정 문제를 해결하는 두 가지 주요 접근법인 평활화(smoothing)와 필터링(filtering)은 근본적인 철학의 차이를 가진다.

요인 그래프 최적화 (FGO, Smoothing): LIO-SAM과 LVI-SAM에서 사용하는 방식으로, 슬라이딩 윈도우 내의 과거부터 현재까지의 모든 측정값과 상태 변수를 하나의 큰 최적화 문제로 구성한다.19 이 방식의 가장 큰 장점은 과거 데이터에 대한 선형화 지점을 반복적으로 수정(relinearization)하여 더 정확한 해를 찾을 수 있다는 점이다.5 하지만 윈도우 내의 모든 변수를 동시에 처리해야 하므로 계산 비용이 높고, 윈도우 크기에 비례하는 처리 지연이 발생할 수 있다.20
오차 상태 반복 칼만 필터 (ESIKF, Filtering): FAST-LIO2에서 채택한 방식으로, 오직 현재 상태만을 추정하는 데 집중한다.19 새로운 측정값이 들어오면 이를 이용해 현재 상태를 업데이트하고, 그 이전의 상태와 측정값은 주변화(marginalization)를 통해 요약된 정보(현재 상태의 사전 확률)로만 남기고 버린다. 이는 계산적으로 매우 효율적이며 지연 시간이 거의 없다. FAST-LIO2는 특히 칼만 이득(Kalman gain)을 계산하는 공식을 수학적으로 동등한 형태로 변형하여, 계산 복잡도가 측정값의 차원(LiDAR 포인트 개수, 수천~수만)이 아닌 상태 변수의 차원(수십)에만 의존하도록 설계했다. 이 혁신적인 최적화 덕분에 압도적인 계산 효율성을 확보할 수 있었다.19

기존의 LOAM 계열 알고리즘들은 포인트 클라우드에서 Edge나 Planar와 같은 기하학적 특징점을 추출하여 사용했다.2 이는 처리할 데이터의 양을 줄여 계산 효율성을 높이고, 모호하지 않은 특징들을 사용해 정합의 강건성을 확보하기 위한 전략이었다. 그러나 이 방식은 몇 가지 본질적인 한계를 가진다.

환경 의존성: 구조물이 거의 없는(structure-less) 환경에서는 추출할 특징점 자체가 부족하여 성능이 급격히 저하된다.19
센서 의존성: 특징점 추출 알고리즘은 Velodyne과 같은 전통적인 기계식 회전형 LiDAR의 규칙적인 스캔 라인 구조에 맞춰 설계된 경우가 많다. Livox와 같은 최신 고체 상태(solid-state) LiDAR는 불규칙하고 비반복적인 스캔 패턴을 가지기 때문에, 기존 방식으로는 안정적인 특징점 추출이 어렵다.10

FAST-LIO2는 이러한 문제를 근본적으로 해결하기 위해 특징점 추출 단계를 완전히 제거하고, 수신된 원시 포인트(raw points)를 맵에 직접 정합(direct registration)하는 “Direct” 방식을 채택했다.19 이는 환경에 존재하는 미세하고 복잡한 기하학적 정보를 버리지 않고 모두 활용하여 정확도를 높일 뿐만 아니라, 어떤 스캔 패턴을 가진 LiDAR 센서에도 별도의 튜닝 없이 바로 적용할 수 있는 뛰어난 범용성을 제공한다.

수만 개에 달하는 원시 포인트를 실시간으로 맵에 직접 정합하기 위해서는, 방대한 양의 맵 포인트를 효율적으로 저장하고, 빠르게 최근접 이웃을 검색하며, 실시간으로 맵을 업데이트할 수 있는 고성능 자료구조가 필수적이다.

FAST-LIO2는 이를 위해 새롭게 설계된 증분 k-d 트리(incremental k-d tree)인 ikd-Tree를 제안했다.19

ikd-Tree는 기존의 k-d 트리와 달리, 새로운 포인트의 삽입과 오래된 포인트의 삭제가 빈번하게 일어나는 동적인 SLAM 환경에 최적화되어 있다. 주요 특징은 다음과 같다 19:

증분 업데이트: 새로운 LiDAR 스캔 포인트를 트리의 구조를 완전히 재구성하지 않고도 효율적으로 추가하거나, 특정 영역의 포인트를 삭제할 수 있다.
동적 재균형: 포인트의 추가 및 삭제로 인해 트리가 한쪽으로 치우쳐져 검색 성능이 저하되는 것을 막기 위해, 최소한의 비용으로 트리의 균형을 동적으로 재조정한다.
트리 내 다운샘플링: 맵의 밀도를 일정하게 유지하기 위한 다운샘플링을 트리 구조 위에서 직접 수행하여 효율성을 높인다.

ikd-Tree의 뛰어난 계산 효율성 덕분에, FAST-LIO2는 매 스텝마다 원시 포인트를 맵에 직접 등록하고 맵을 업데이트하는 과감한 전략을 실시간으로 수행할 수 있다. 이는 인텔 i7 CPU나 ARM 기반 프로세서와 같은 자원이 제한된 임베디드 플랫폼에서도 100 Hz에 가까운 빠른 속도로 Odometry와 Mapping을 동시에 처리하는 것을 가능하게 한다.19 결국 FAST-LIO2의 성공은 ESIKF라는 효율적인 필터링 기법, Direct라는 범용적인 정합 방식, 그리고 ikd-Tree라는 고성능 자료구조의 삼박자가 완벽하게 맞아떨어진 결과라고 할 수 있다.

LIO-SAM과 그 파생 연구들의 발전 과정은 단순히 성능을 개선하는 것을 넘어, SLAM 기술이 현실 세계에서 마주하는 근본적인 난제들, 즉 ‘퇴화(degeneracy)’와 ‘동적 환경(dynamic environments)’에 어떻게 대응해왔는지를 보여주는 역사이기도 하다. 이 문제들을 해결하는 과정에서 SLAM 시스템은 순수한 기하학적 정보에만 의존하던 것에서 벗어나, 다른 종류의 센서, 사전 지식, 그리고 시간적 맥락 등 더 풍부하고 다양한 정보를 활용하는 방향으로 진화했다.

퇴화는 SLAM 시스템이 센서 측정값으로부터 자신의 움직임을 유일하게 결정할 수 없는 상태를 의미한다. LiDAR SLAM의 경우, 이는 주로 환경의 기하학적 특징이 부족할 때 발생한다. 예를 들어, 특징 없는 긴 복도나 터널을 따라 직진할 때, 로봇은 전진 방향으로의 이동량($x$)과 좌우 편차($y$)를 포인트 클라우드 정합만으로는 명확히 구분하기 어렵다.12 또한 넓은 평지나 대칭적인 구조의 공간에서도 특정 방향의 회전이나 이동에 대한 제약이 부족하여 위치 추정의 불확실성이 급격히 증가한다.24 이러한 상황에서 IMU와 같은 보조 센서 없이는 추정 오차가 무한정 발산할 수 있다.

퇴화 현상을 수학적으로 탐지하는 가장 일반적인 방법은 scan-matching 최적화 문제의 헤시안 행렬($H$)을 분석하는 것이다.27 최적화 과정은 보통 점-평면 또는 점-선 거리 오차의 제곱 합을 최소화하는 비선형 최소제곱 문제로 공식화된다. 헤시안 행렬은 이 비용 함수의 2차 미분값으로, 오차 공간의 곡률(curvature)을 나타낸다.

헤시안 행렬의 고유값(eigenvalue)은 각 고유벡터(eigenvector) 방향으로의 오차 함수 변화율, 즉 해당 방향으로의 제약(constraint)이 얼마나 강한지를 의미한다.

큰 고유값: 해당 방향으로 조금만 움직여도 오차가 급격히 커짐을 의미한다. 이는 그 방향으로의 상태 추정이 매우 잘 제약되어 있음을 뜻한다.
작은 고유값 (0에 가까운 값): 해당 방향으로 움직여도 오차 변화가 거의 없음을 의미한다. 이는 그 방향으로의 제약이 매우 약하거나 없어서, 상태를 유일하게 결정할 수 없는 ‘퇴화’ 상태임을 나타낸다.

따라서, 헤시안 행렬의 최소 고유값($\lambda_{min}$)이 특정 임계치보다 작아지거나, 최대 고유값과 최소 고유값의 비율인 조건수($\kappa(H) =

\lambda_{max}

\lambda_{min}

$)가 비정상적으로 커지는 것을 감지함으로써 퇴화의 발생 여부와 그 방향을 실시간으로 탐지할 수 있다.27

퇴화가 탐지되었을 때, 각 시스템은 서로 다른 전략으로 이에 대응한다.

LIO-SAM: LiDAR 측정의 신뢰도가 낮다고 판단되면, 요인 그래프 내에서 LiDAR Odometry Factor의 정보 행렬(가중치)을 낮추고, 대신 IMU Pre-integration Factor에 더 높은 가중치를 부여한다. 즉, 기하학적 정보가 부족할 때는 관성 센서의 예측에 더 의존하여 위치를 추정한다.25
LVI-SAM: LiDAR가 퇴화 상태에 빠졌을 때, 이종(heterogeneous) 센서인 카메라가 결정적인 역할을 한다. 텍스처 정보가 있다면 VIO는 퇴화와 무관하게 안정적인 위치 추정이 가능하므로, VIO의 추정치가 부족한 기하학적 제약을 보완해준다. 이는 퇴화 문제에 대한 가장 근본적이고 강력한 해결책 중 하나다.14
LPVIMO-SAM: 특정 퇴화 시나리오에 대응하기 위해 더욱 특화된 센서를 추가한다. 예를 들어, 평평한 지면에서 발생하는 Z축 드리프트 퇴화를 막기 위해 바닥까지의 거리를 측정하는 광학 흐름(Optical Flow) 센서를 추가하여 ‘높이 요인’을 구성하고, 방향(yaw) 드리프트 퇴화를 막기 위해 지자계 센서(Magnetometer)를 추가하여 ‘방향 요인’을 구성한다.11
기타 연구: 퇴화가 감지되면 시스템의 모드를 동적으로 전환하여 VIO나 바퀴 주행계(Wheel Odometry)와 같은 다른 Odometry 소스를 주된 정보원으로 사용하는 방법 27, 또는 IMU 예측값을 퇴화가 발생한 방향으로 투영하여 LiDAR 측정값을 보상하는 방법 등이 제안되었다.29

대부분의 전통적인 SLAM 알고리즘은 세상이 정적(static)이라는 강력한 가정하에 설계되었다. 그러나 현실 세계는 사람, 차량 등 수많은 동적 객체로 가득 차 있다. 이러한 동적 객체들은 정합 과정에서 잘못된 데이터 연관(data association)을 유발하여 위치 추정의 정확도를 심각하게 저하시키고, 생성된 맵에 잔상(ghosting)을 남겨 오염시킨다.30

이 문제를 해결하는 가장 직관적인 방법은 ‘무엇이 움직이는 객체인지’를 알아내고, SLAM 계산 과정에서 이를 배제하는 것이다. LIO-CSI (LIO with loop Closure combined with Semantic Information)는 LIO-SAM을 기반으로 이러한 아이디어를 구현한 시스템이다.31

LIO-CSI는 딥러닝 기반의 3D 포인트 클라우드 의미론적 분할(semantic segmentation) 네트워크(e.g., SPVNAS)를 사용하여, LiDAR 포인트 클라우드의 모든 점에 ‘자동차’, ‘보행자’, ‘건물’, ‘도로’와 같은 의미론적 레이블을 부여한다.31 그 후, ‘자동차’나 ‘보행자’와 같이 움직일 가능성이 높은 카테고리로 분류된 포인트들을 특징점 추출 및 정합 과정에서 명시적으로 제거한다. 이를 통해 SLAM 시스템은 ‘건물’이나 ‘도로’와 같이 정적인 배경 구조물에만 의존하여 위치를 추정하게 되므로, 동적 객체로 인한 오차를 원천적으로 차단하고 강건성을 크게 향상시킬 수 있다.31

딥러닝 모델에 의존하지 않고 동적 객체를 처리하려는 시도도 있다. ID-LIO (LiDAR inertial odometry-based on Indexed point and Delayed removal strategy)는 LIO-SAM을 기반으로 시간적 일관성을 활용하여 동적 객체에 대응하는 프레임워크다.35

지연 제거 전략 (Delayed Removal Strategy): 현재 프레임의 정보만으로는 어떤 포인트가 동적인지 확실하게 판단하기 어려울 수 있다. 따라서 ID-LIO는 의심스러운 포인트를 즉시 제거하는 대신, 해당 포인트로부터 생성된 LiDAR 측정 요인의 가중치를 슬라이딩 윈도우 최적화 과정에서 동적으로 낮추는 ‘지연 제거’ 전략을 사용한다.36
동적 가중치 (Dynamic Weights): 시스템은 각 특징점이 과거에 얼마나 자주 ‘동적’인 것으로 관찰되었는지를 ‘Dynamic Observation Number (DON)’라는 값으로 추적한다. 예를 들어, 어떤 포인트가 있어야 할 위치에 없고 비어있는 것으로 관찰되면 DON이 증가한다. 최적화 과정에서 각 오차항의 가중치는 이 DON 값에 반비례하도록 설정된다. 즉, 지속적으로 동적인 움직임을 보이는 포인트에서 발생한 오차는 전체 포즈 추정에 거의 영향을 미치지 않게 된다. 이를 통해 시스템은 시간의 흐름에 따라 동적 객체를 점진적으로 식별하고 그 영향을 완화할 수 있다.36

결론적으로, SLAM의 근본적인 난제인 퇴화와 동적 환경 문제는 순수한 기하학적 제약만으로는 해결하기 어렵다. LIO-SAM의 진화 과정은 이러한 한계를 극복하기 위해 다중 센서 융합(공간적 정보), 의미론적 이해(사전 지식), 그리고 시간적 일관성 분석(시간적 정보)과 같이 정보를 다각화하는 방향으로 나아가고 있음을 명확히 보여준다.

LIO-SAM 생태계는 LVI-SAM과 FAST-LIO2라는 주요 줄기 외에도, 특정 문제를 해결하거나 새로운 기술을 접목하려는 다양한 가지들로 뻗어 나가고 있다. 이러한 연구들은 SLAM 기술이 단순한 위치 추정을 넘어, 더 넓은 범위의 인식(Perception)과 안전(Safety) 문제로 확장되고 있음을 보여준다. 이는 SLAM 기술이 연구실 수준을 넘어 실제 세상의 복잡하고 예측 불가능한 문제들을 해결해야 하는 성숙 단계에 접어들었음을 의미한다.

LiDAR, IMU, 카메라 외에 다른 센서를 추가하여 특정 환경에서의 강건성을 더욱 높이려는 연구들이 진행되고 있다.

LIW-OAM (LiDAR-Inertial-Wheel Odometry and Mapping): 바퀴가 달린 지상 로봇을 위해 바퀴 엔코더(Wheel Encoder)의 측정값을 통합한 시스템이다.38 바퀴 주행계(Wheel Odometry)는 지면이 평탄하고 미끄러짐이 적은 조건에서는 매우 정확한 이동 정보를 제공한다. 이 정보를 요인 그래프에 추가적인 제약으로 활용함으로써, LiDAR가 퇴화 상태에 빠지는 복도나 평지 환경에서도 정확한 이동 거리 추정이 가능해져 시스템의 강건성이 향상된다.
LPVIMO-SAM (LiDAR-Polarization Vision-Inertial-Magnetometer-Optical Flow): LVI-SAM을 극한의 환경에 대응할 수 있도록 확장한 프레임워크다.11 이 시스템은 기존의 LiDAR, IMU, 카메라에 더해 세 가지 센서를 추가로 통합한다:
1. 편광 카메라 (Polarization Vision): 텍스처가 전혀 없는 하얀 벽과 같이 일반 카메라가 특징을 찾지 못하는 환경에서도 표면의 편광 정보를 분석하여 VIO의 강건성을 높인다.
2. 광학 흐름 센서 (Optical Flow): 주로 바닥을 향해 장착되어, Z축 방향의 속도와 높이를 직접 측정한다. 이는 LiDAR가 평평한 지면에서 겪는 고도(altitude) 드리프트 문제를 효과적으로 억제하는 ‘높이 요인(height factor)’을 제공한다.
3. 지자계 센서 (Magnetometer): 지구 자기장을 측정하여 절대적인 방향(heading) 정보를 제공한다. 이는 특히 장시간 운행 시 누적되는 방향(yaw) 드리프트를 보정하는 ‘방향 우선 요인(heading prior factor)’으로 작용한다.

전통적인 SLAM 파이프라인은 특징 추출, 데이터 연관, 상태 추정 등 여러 모듈이 순차적으로 연결된 복잡한 구조를 가진다. 최근 딥러닝의 발전은 이 전체 과정을 하나의 거대한 신경망으로 대체하려는 종단간(end-to-end) 학습 접근법의 등장을 이끌었다.

ELiOT (End-to-end Lidar Odometry using Transformer): 이 연구는 Transformer 아키텍처를 사용하여 순차적인 두 LiDAR 스캔 사이의 상대적인 움직임을 직접 추정하는 신경망을 제안한다.39 시스템은 포인트 클라우드에서 기하학적 특징을 명시적으로 추출하는 대신, Self-attention 메커니즘을 통해 두 스캔 사이의 복잡한 공간적, 시간적 관계를 데이터로부터 학습한다. 이러한 접근법은 수작업으로 설계된 복잡한 알고리즘 파이프라인을 대체하여, 잠재적으로 더 강건하고 일반화된 성능을 보일 가능성을 제시한다.

전통적인 SLAM은 환경을 포인트 클라우드나 복셀 그리드와 같은 기하학적 형태로 표현한다. 그러나 이러한 맵은 사실적인 외형 정보를 담고 있지 않아 시뮬레이션이나 AR/VR과 같은 응용 분야에 직접 활용하기 어렵다. Neural Radiance Fields (NeRF)는 이 문제를 해결할 새로운 가능성을 제시한다.

NeRF는 여러 각도에서 촬영된 이미지들로부터 해당 장면의 연속적이고 사실적인 3D 표현을 학습하는 기술이다. 최근 연구들은 LiDAR SLAM으로 얻은 정확한 카메라 포즈와 희소한 깊이 정보를 NeRF 학습 과정에 사전 정보(prior)로 활용하고 있다.40 LiDAR는 NeRF가 기하학적으로 정확한 구조를 학습하도록 돕고, 카메라는 사실적인 텍스처와 색상을 제공한다. 이러한 융합을 통해, 단순한 기하학적 맵을 넘어, 현실과 거의 구분이 불가능한 고품질의 디지털 트윈(digital twin)을 생성할 수 있다. 이는 SLAM의 역할이 단순한 위치 추정 도구에서, 가상 세계를 창조하는 핵심 기술로 확장될 수 있음을 시사한다.

SLAM 기술이 자율주행차, 배송 로봇 등 안전이 중요한(safety-critical) 분야에 실제로 적용되기 시작하면서, 이전에는 크게 고려되지 않았던 보안과 안전성 문제가 새로운 연구 주제로 부상하고 있다.

적대적 공격 (Adversarial Attacks): 악의적인 공격자가 LiDAR 센서에 물리적으로나 네트워크를 통해 가짜 포인트 데이터를 주입(Point Injection)하여 SLAM 시스템을 교란시킬 수 있다는 가능성이 제기되었다. SLACK과 같은 연구는 GAN(Generative Adversarial Network)을 이용해, 인간의 눈으로는 거의 탐지하기 어려운 미세한 노이즈처럼 보이는 가짜 포인트를 생성하여 LiDAR 스캔에 주입한다.43 이러한 공격은 SLAM 시스템이 자신의 위치를 잘못 추정하게 만들고, 맵을 심각하게 왜곡시켜 잠재적으로 위험한 상황을 초래할 수 있다.45 이는 SLAM 시스템의 강건성 평가에 ‘보안’이라는 새로운 차원을 추가해야 함을 의미한다.
형식 검증 (Formal Verification): SLAM 시스템의 출력이 특정 안전 조건을 항상 만족하는지를 수학적으로 증명하려는 연구다.47 예를 들어, ‘어떠한 센서 입력이 들어오더라도, SLAM 시스템이 추정한 로봇의 위치가 벽을 뚫고 들어가는 일은 절대로 발생하지 않는다’와 같은 명제를 증명하는 것이다. 이는 시나리오 기반의 테스트만으로는 발견하기 어려운 잠재적인 실패 사례를 사전에 찾아내고, 시스템의 신뢰도를 최고 수준으로 보장하기 위한 노력이다.49 이러한 연구는 SLAM 기술이 단순한 ‘성능’을 넘어 ‘신뢰’와 ‘안전’을 보장해야 하는 단계로 나아가고 있음을 보여준다.

LIO-SAM 계열 알고리즘들의 성능을 객관적으로 평가하기 위해, 자율주행 연구에서 널리 사용되는 KITTI Odometry 벤치마크 데이터셋을 기준으로 주요 알고리즘들의 성능을 비교할 수 있다.22 평가 지표로는 주로 절대 궤적 오차(Absolute Trajectory Error, ATE)가 사용되며, 이는 추정된 궤적과 실제 지상 참값(ground truth) 궤적 사이의 전역적인 차이를 나타낸다. ATE의 RMSE(Root Mean Square Error) 값이 작을수록 전반적인 정확도가 높음을 의미한다.22

아래 표는 여러 연구에서 보고된 결과를 종합하여 대표적인 시퀀스에 대한 각 알고리즘의 ATE RMSE 성능을 요약한 것이다. (참고: 이 값들은 각 논문의 실험 환경 및 파라미터 설정에 따라 다소 차이가 있을 수 있으며, 경향성을 파악하기 위한 참고 자료로 활용되어야 한다.)

알고리즘 (Algorithm)	상태 추정 방식	KITTI 00 (ATE RMSE [m])	KITTI 05 (ATE RMSE [m])	KITTI 07 (ATE RMSE [m])
LIO-SAM	요인 그래프 최적화	~1.3 - 1.5	~0.8 - 1.0	~0.6 - 0.7
LVI-SAM	요인 그래프 최적화	~1.1 - 1.3	~0.7 - 0.9	~0.5 - 0.6
FAST-LIO2	반복 칼만 필터	~1.2 - 1.4	~0.8 - 1.0	~0.5 - 0.7
LIO-CSI / ID-LIO	요인 그래프 (동적 대응)	동적 객체가 많은 시퀀스에서 LIO-SAM 대비 60-80% 향상 31

표에서 볼 수 있듯이, LVI-SAM은 시각 정보의 도움으로 LIO-SAM 대비 전반적으로 약간의 성능 향상을 보인다. FAST-LIO2는 요인 그래프 기반 방법들과 대등하거나 일부 시퀀스에서 더 나은 성능을 보여주며, 특히 압도적인 계산 효율성을 장점으로 가진다.19 LIO-CSI나 ID-LIO와 같은 동적 환경 대응 알고리즘들은 KITTI 데이터셋보다는 UrbanLoco나 UrbanNav와 같이 동적 객체가 훨씬 많은 데이터셋에서 그 진가를 발휘하며, 이러한 환경에서는 기존 LIO-SAM 대비 ATE를 60% 이상 크게 개선하는 결과를 보여준다.37

지금까지 논의된 주요 프레임워크들의 핵심적인 철학과 기술적 차이점을 요약하면 다음 표와 같다. 이 표는 각 시스템의 설계 사상을 한눈에 파악하고, 특정 응용 분야에 어떤 프레임워크가 더 적합할지 판단하는 데 도움을 줄 수 있다.

비교 항목	LIO-SAM	LVI-SAM	FAST-LIO2
핵심 철학	정확성과 실시간성의 균형	다중 모드 융합을 통한 강건성	효율성 및 센서 범용성
상태 추정 방식	요인 그래프 최적화 (FGO)	요인 그래프 최적화 (FGO)	오차 상태 반복 칼만 필터 (ESIKF)
포인트 클라우드 처리	특징점(Edge/Planar) 추출	특징점(Edge/Planar) 추출	원시 포인트 직접 사용 (Direct)
핵심 자료구조	k-d tree	k-d tree	`ikd-Tree` (증분 k-d 트리)
퇴화 환경 대응	IMU 요인 가중치 증가	VIO를 통한 제약 보완	IMU 예측에 강하게 의존
동적 객체 대응	기하학적 필터링 (제한적)	기하학적 필터링 (제한적)	(기본 기능 없음)
주요 장점	안정적이고 검증된 성능	퇴화/텍스처 부족 환경 강건성	압도적 계산 효율, 센서 범용성
주요 단점	퇴화 환경 취약, 센서 의존성	계산 복잡도 증가	FGO 대비 이론적 정확도 한계

LIO-SAM은 LOAM의 아이디어를 현대적인 요인 그래프 최적화 프레임워크에 성공적으로 통합하여, Tightly-coupled LiDAR-관성 SLAM의 표준을 제시한 중요한 이정표였다. 그 이후의 발전은 크게 두 가지 뚜렷한 방향으로 전개되었다.

첫 번째 흐름은 다중 모드 융합을 통한 강건성의 극대화다. LVI-SAM은 카메라를 추가하여 LiDAR의 근본적인 약점인 기하학적 퇴화 문제를 정면으로 돌파했으며, LPVIMO-SAM과 같은 연구는 특정 실패 시나리오에 대응하기 위해 더욱 다양한 센서를 통합하는 방향으로 나아갔다. 이 흐름은 SLAM 시스템이 어떠한 악조건 속에서도 신뢰성을 잃지 않아야 한다는 요구에 부응한다.

두 번째 흐름은 알고리즘 패러다임 전환을 통한 효율성과 범용성의 확보다. FAST-LIO2는 최적화 대신 필터링을, 특징점 추출 대신 Direct 방식을 채택함으로써 계산 효율을 극대화하고 다양한 종류의 LiDAR 센서에 대한 적용 가능성을 넓혔다. 이는 SLAM 기술이 고성능 서버를 넘어 자원이 제한된 임베디드 시스템으로 확산되는 시대적 요구를 반영한다.

현재의 최신 연구들은 여기서 한 걸음 더 나아가, 동적 환경이나 보안 위협과 같은 더욱 복잡하고 근본적인 문제들을 해결하기 위해 의미론적 정보, 시간적 일관성, 그리고 보안 기술과 같은 더 높은 수준의 추상적 정보를 SLAM 파이프라인에 통합하고 있다.

미래의 LiDAR-관성 SLAM 기술은 다음과 같은 방향으로 발전할 것으로 전망된다.

지능형 융합: 단순히 센서 데이터를 결합하는 것을 넘어, 상황을 인지하고 각 센서 정보의 신뢰도를 동적으로 판단하여 가중치를 조절하는 지능형 융합 방식이 주류가 될 것이다.
사실적이고 의미론적인 맵: NeRF와 같은 기술과의 결합을 통해, 단순한 포인트 클라우드를 넘어 인간이 이해하고 상호작용할 수 있는, 사실적이고 의미 정보가 풍부한 3D 맵을 실시간으로 생성하는 방향으로 나아갈 것이다.
신뢰성과 안전성 보장: 자율주행과 같은 safety-critical 응용 분야의 확산에 따라, 외부 공격에 대한 방어 능력을 갖추고 시스템의 안전성을 수학적으로 증명할 수 있는, 신뢰할 수 있는 SLAM 기술에 대한 요구가 더욱 커질 것이다.

결론적으로 LIO-SAM에서 시작된 기술의 궤적은 ‘어떻게 위치를 추정할 것인가’라는 문제를 넘어, ‘어떻게 주변 세계를 이해하고, 안전하게 상호작용하며, 신뢰할 수 있는 디지털 트윈을 구축할 것인가’라는 더 넓은 질문에 답하는 방향으로 진화하고 있다.