Booil Jung

LiDAR SLAM을 위한 iVox-PHC 데이터 구조에 대한 심층 고찰

본 보고서에서 다루는 ‘iVox-PHC’는 3차원 포인트 클라우드(point cloud) 데이터를 효율적으로 관리하기 위해 설계된 컴퓨터 과학 분야의 특정 데이터 구조를 지칭한다. 이는 주로 자율주행, 로보틱스, 3D 맵핑과 같은 첨단 기술 분야에서 LiDAR(Light Detection and Ranging) 센서로부터 얻어지는 방대한 양의 공간 정보를 실시간으로 처리하기 위해 사용된다.

분석에 앞서, 연구 자료에서 발견되는 여러 동음이의어(homonym)와의 개념적 구분을 통해 혼란을 방지하고 보고서의 범위를 명확히 한정할 필요가 있다. 본 보고서의 주제와 관련 없는 용어들은 다음과 같다.

iVox Communications / iVox Solutions: 캐나다에 기반을 둔 비즈니스 프로세스 아웃소싱(BPO) 및 콜센터 솔루션 제공 기업이다. 이 기업은 고객 관리, 데이터 분석, 온라인 마케팅 등의 서비스를 제공하며, 본 보고서에서 논하는 기술적 데이터 구조와는 아무런 관련이 없다.
iVOX App: 미국의 Library Ideas, LLC가 개발한 2세에서 10세 사이의 아동을 위한 3D 인터랙티브 디지털 도서 애플리케이션이다. 이 앱은 스토리텔링 기술을 활용하여 아이들의 독서 경험을 향상시키는 것을 목표로 하며, 기술적 연관성이 전무하다.
PHC Pile: 건설 및 토목 공학 분야에서 사용되는 고강도 콘크리트 말뚝을 의미하는 약어이다. 이는 ‘Pretensioned spun High strength Concrete Pile’의 줄임말로, 건축물 기초 공사의 핵심 자재이다. 본 보고서에서 다룰 PHC는 ‘Pseudo Hilbert Curve(유사 힐베르트 곡선)’의 약자로, 완전히 다른 학문적 배경과 원리를 가진다.

따라서 본 보고서는 오직 로보틱스 및 자율 시스템 분야의 LiDAR SLAM 알고리즘 내에서 사용되는 데이터 구조로서의 ‘iVox-PHC’에 대해서만 심층적으로 고찰한다.

LiDAR SLAM(Simultaneous Localization and Mapping)은 로봇이나 차량과 같은 자율 시스템이 사전 정보가 없는 미지의 환경을 탐색하며 3D 지도를 생성하는 동시에, 그 지도상에서 자신의 위치와 자세를 실시간으로 추정하는 핵심 기술이다. 특히, LiDAR 센서와 관성 측정 장치(IMU, Inertial Measurement Unit)의 측정값을 강결합(tightly-coupled)하여 처리하는 LIO(Lidar-Inertial Odometry) 시스템은 고속으로 움직이거나, 주변 환경에 기하학적 특징이 부족한(feature-less) 경우에도 강인하고 정확한 항법 성능을 제공한다.

이러한 LIO 시스템의 실시간 성능은 수십만 개에 달하는 3D 포인트로 구성된 포인트 클라우드를 얼마나 효율적으로 저장, 업데이트, 그리고 조회할 수 있는지에 달려있다. 전통적으로 많이 사용되던 k-d 트리(k-dimensional tree)와 같은 데이터 구조는 특정 영역 내의 포인트들을 검색하는 데에는 효율적이지만, 새로운 포인트가 추가될 때마다 트리의 균형을 다시 맞추는 재균형(rebalancing) 과정에서 상당한 계산 비용이 발생한다. 이로 인해 맵을 지속적으로 업데이트해야 하는 실시간 SLAM 애플리케이션에서는 병목 현상을 유발하는 한계점을 보였다.

iVox-PHC는 이러한 실시간 처리의 한계를 극복하기 위해 제안된 경량(lightweight) 고속 데이터 구조이다. 특히 홍콩대학 연구팀이 개발한 Faster-LIO 알고리즘의 핵심 구성 요소로 제안되면서 그 효율성을 입증했다.

iVox-PHC의 핵심 설계 철학은 k-d 트리와 같은 복잡한 트리 기반 구조나, 모든 이웃과의 거리를 계산해야 하는 엄격한(strict) k-최근접 이웃(k-Nearest Neighbors, k-NN) 탐색 방식을 지양하는 것이다. 대신, 공간 해싱(spatial hashing) 기법을 기반으로 필요한 공간만 효율적으로 사용하고, 유사 힐베르트 곡선을 이용한 근사(approximated) k-NN 탐색을 통해 맵 업데이트와 포인트 매칭에 소요되는 시간을 극적으로 단축시키는 것을 목표로 한다.

본 보고서는 iVox-PHC의 근본적인 동작 원리부터 시작하여, 타 데이터 구조와의 정량적, 정성적 성능 비교를 수행하고, 실제 시스템에 적용할 때 고려해야 할 사항들을 심층적으로 분석함으로써 이 기술의 공학적 가치와 내재적 한계를 종합적으로 규명하고자 한다.

iVox-PHC 데이터 구조는 ‘iVox’라는 증분적 희소 복셀 해싱 프레임워크와, 복셀 내부의 포인트들을 효율적으로 관리하기 위한 ‘PHC(유사 힐베르트 곡선)’라는 두 가지 핵심 기술의 결합으로 이루어진다.

iVox의 기본 개념은 3차원 공간을 효율적으로 관리하기 위해 희소 복셀(sparse voxel)과 공간 해싱(spatial hashing)을 결합한 것이다.

희소 복셀의 개념: 3차원 공간 전체를 일정한 크기의 정육면체 단위인 복셀(voxel)로 분할하되, 포인트 클라우드 데이터가 실제로 존재하는 복셀에 대해서만 메모리를 할당하고 관리하는 방식이다. 이는 맵 전체 공간에 대해 복셀을 생성하는 조밀한(dense) 볼류메트릭 그리드(volumetric grid) 방식에 비해 메모리 사용량 측면에서 압도적인 효율성을 제공한다. 특히 광활한 공간을 매핑해야 하는 자율주행이나 드론 애플리케이션에서 이는 필수적인 특성이다.
공간 해싱 메커니즘: iVox는 포인트가 포함된 복셀들을 빠르게 찾고 접근하기 위해 해시 맵(hash map)을 사용한다. 3차원 공간상의 복셀 좌표 $[v_x, v_y, v_z]$ 를 해시 함수에 입력하여 해시 맵의 1차원 인덱스(버킷 주소)로 변환한다. Faster-LIO에서 제안된 해시 함수는 다음과 같다. $id = \text{hash}(v) = (v_x \cdot n_1) \oplus (v_y \cdot n_2) \oplus (v_z \cdot n_3) \pmod{N}$ 여기서 $p = [p_x, p_y, p_z]$ 는 입력된 포인트의 3차원 좌표, $s$ 는 사용자가 정의하는 복셀의 크기(예: 0.5m)이다. 각 좌표 성분을 복셀 크기로 나눈 몫 $(v_i = \lfloor p_i / s \rfloor)$ 이 해당 복셀의 정수 좌표가 된다. $\oplus$ 는 비트 단위 XOR(배타적 논리합) 연산을 의미하며, $n_1, n_2, n_3$ 는 충돌을 줄이기 위해 사용되는 서로 다른 큰 소수(large prime numbers)이다. 마지막으로 $N$ 은 해시 맵의 전체 크기(버킷의 수)를 나타낸다.

이러한 해시 함수의 설계는 속도를 최우선으로 고려한 결과이다. XOR 연산은 계산적으로 매우 빠르지만, 완벽한 해시 함수가 아니므로 서로 다른 복셀 좌표가 동일한 해시 인덱스로 매핑되는 해시 충돌(hash collision)이 발생할 수 있다. Faster-LIO 관련 문헌에서는 충돌 해결 전략을 명시적으로 언급하지 않지만, 관련 연구에서 복셀 맵 구조를 “각 할당된 복셀은… 복셀 포인트들의 리스트(a list of voxel points)를 저장한다”고 설명하는 부분에서 중요한 단서를 찾을 수 있다. 이는 해시 충돌 해결 기법 중 분리 연결법(Separate Chaining)을 사용했음을 강력하게 시사한다. 즉, 동일한 해시 인덱스로 매핑되는 여러 복셀들을 해당 인덱스의 연결 리스트(linked list)나 유사한 동적 컨테이너에 모두 저장하는 방식이다. 특정 복셀을 조회할 때는 먼저 해시 인덱스를 계산하여 해당 버킷에 접근한 뒤, 버킷 내 리스트를 순회하며 실제 복셀 좌표 $[v_x, v_y, v_z]$ 를 비교하여 원하는 복셀을 최종적으로 찾는다. 이 방식은 약간의 오버헤드를 유발하지만, 구현이 간단하고 고성능 해싱 시스템에서 충돌을 처리하는 표준적인 방법 중 하나이다.
증분적 업데이트: iVox의 가장 큰 장점 중 하나는 맵의 증분적(incremental) 업데이트가 매우 효율적이라는 점이다. 새로운 LiDAR 스캔 데이터가 들어오면, 전체 맵 구조를 재구성할 필요 없이 새로 추가된 포인트들이 속하는 복셀들만 계산하여 해시 맵에 삽입하거나 기존 복셀을 업데이트하면 된다. 해시 맵에서의 삽입 및 삭제 연산은 평균적으로 $O(1)$ 의 시간 복잡도를 가지므로, k-d 트리의 재균형 문제와 비교하여 계산적으로 훨씬 저렴하다. 이는 실시간으로 맵을 계속 확장하고 갱신해야 하는 LIO 시스템에 매우 적합한 특성이다.
공간 채움 곡선의 원리: 힐베르트 곡선(Hilbert Curve)은 다차원 공간(예: 2D 평면 또는 3D 공간)의 모든 점을 빈틈없이 지나가면서 1차원 선으로 매핑하는 프랙탈 곡선의 일종이다. 이 곡선의 가장 중요한 특징은 공간 지역성 보존(locality-preserving) 능력이다. 즉, 원래의 3차원 공간에서 서로 가까이 위치한 점들은, 1차원 힐베르트 인덱스로 변환된 후에도 서로 가까운 숫자 값을 가지는 경향이 매우 강하다.
iVox-PHC에서의 역할: iVox-PHC는 이 원리를 각 복셀 내부에 적용한다. 하나의 복셀 안에는 여러 개의 3D 포인트가 존재할 수 있는데, 이 포인트들을 3차원 좌표 그대로 저장하는 대신, 유사 힐베르트 곡선(Pseudo Hilbert Curve, PHC) 알고리즘을 이용해 1차원 인덱스 순서로 정렬하여 저장한다. 이렇게 함으로써, 3차원 공간에서의 복잡한 근접 이웃 탐색(k-NN) 문제를 1차원 정렬된 배열에서의 간단한 범위 탐색 문제로 근사(approximate)할 수 있게 된다.

이 근사 방식의 타당성은 수학적으로 보장된다. Faster-LIO 논문에 따르면, 3차원 공간상의 두 점 A와 B 사이의 실제 유클리드 거리(Euclidean distance)를 $d$ 라 하고, PHC 곡선상의 거리를 $l$ 이라고 할 때, 다음의 부등식이 성립한다. $d \le l \le \sqrt{3} \cdot d$ 이 부등식은 PHC를 따라 측정한 거리가 실제 거리보다 항상 크거나 같고, 최대 $\sqrt{3}$ 배를 넘지 않음을 의미한다. 이는 유클리드 공간에서 가까운 이웃이 PHC 상에서도 반드시 상대적으로 가까운 곳에 위치함을 보장한다. 물론 그 역이 항상 참은 아니지만(곡선상에서 가깝다고 실제 공간에서도 반드시 가장 가까운 이웃은 아닐 수 있음), LIO 시스템의 맥락에서는 이 정도의 근사로 충분하다. LIO는 IMU로부터 매우 정확한 초기 자세 추정치를 얻기 때문에, 광범위한 영역에서 맹목적으로 이웃을 찾는 것이 아니라 이미 예상 위치 주변의 좁은 영역 내에서만 포인트 매칭을 수행하기 때문이다. 따라서 완벽한 최근접 이웃 대신, 계산적으로 훨씬 저렴하게 찾을 수 있는 ‘충분히 좋은’ 근사 이웃 집합만으로도 로봇의 자세를 최적화하기에 충분한 정보를 얻을 수 있다.

iVox는 복셀 내부에 포인트를 저장하고 탐색하는 방식에 따라 두 가지 구체적인 구현으로 나뉜다.

Linear iVox: 포인트를 단순한 동적 배열(vector)이나 리스트와 같은 선형 자료구조에 순서 없이 저장한다. 이 경우, 특정 포인트의 k-NN을 찾으려면 해당 복셀 내에 존재하는 모든 $n$ 개의 포인트와의 거리를 일일이 계산하고 비교해야 한다. 따라서 탐색의 시간 복잡도는 복셀 내 포인트 수에 비례하는 $O(n)$ 이 된다.
iVox-PHC: 포인트를 PHC 구조, 즉 1차원 PHC 인덱스 순서로 정렬된 배열에 저장한다. k-NN 탐색은 주어진 포인트의 PHC 인덱스를 계산한 뒤, 그 인덱스의 앞뒤로 탐색 범위를 넓혀가며 이웃을 찾는 방식으로 근사된다. 이 경우 탐색 복잡도는 복셀 내 포인트 수 $n$ 과 무관하게, PHC의 차수(order) $K$ 에만 의존하는 $O(K)$ 가 된다.

이 두 방식 사이의 선택은 성능 최적화를 위한 중요한 트레이드오프 관계를 가진다. Faster-LIO 논문에서는 복셀 당 포인트 수가 적을 때는 Linear iVox가, 많을 때는 iVox-PHC가 더 효율적이라고 명시하고 있다. 이는 각 방식의 시간 복잡도에서 비롯된 당연한 결과이다. 예를 들어, 복셀 내에 포인트가 3개( $n=3$ )만 있다면, Linear iVox는 단 3번의 거리 계산만으로 탐색을 완료한다. 반면 iVox-PHC는 이 3개의 포인트를 PHC로 변환하고 인덱싱하는 추가적인 오버헤드가 발생하므로 오히려 더 느릴 수 있다. 하지만 만약 복셀 내에 포인트가 100개( $n=100$ ) 있다면, Linear iVox는 100번의 계산이 필요한 반면, iVox-PHC는 $K=6$ 과 같은 일반적인 차수를 사용할 경우 훨씬 적은 연산으로 근사 이웃을 찾을 수 있어 압도적으로 유리해진다.

결국 어떤 방식이 더 효율적인지는 LiDAR 센서의 해상도와 사용자가 설정하는 복셀 크기에 따라 결정되는 ‘예상 포인트 밀도’에 달려있다. 이러한 이유로 Faster-LIO의 빌드 시스템은 사용자가 컴파일 시점에 -DWITH_IVOX_NODE_TYPE_PHC=ON과 같은 플래그를 통해 두 방식 중 하나를 선택할 수 있도록 유연성을 제공한다.

iVox-PHC의 기술적 가치를 명확히 이해하기 위해서는 동시대에 제안된 다른 주요 포인트 클라우드 데이터 구조와의 비교가 필수적이다. 특히 FAST-LIO2에서 사용된 ikd-Tree와 FR-LIO에서 제안된 RC-Vox와의 비교는 SLAM 데이터 구조의 발전 방향을 이해하는 데 중요한 단서를 제공한다.

Table 1: 주요 포인트 클라우드 데이터 구조 비교

기준 (Criteria)	linear iVox	iVox-PHC	ikd-Tree (FAST-LIO2)	RC-Vox (FR-LIO)
기본 메커니즘	해시 맵 + 선형 배열	해시 맵 + 유사 힐베르트 곡선	증분적 k-d 트리	로봇 중심 2계층 3D 배열
k-NN 탐색 복잡도	$O(n)$ (복셀 내 포인트 수)	$O(K)$ (PHC 차수)	$O(\log N)$ (전체 포인트 수)	`$O(1)` (배열 접근) + 최적화된 탐색
탐색 방식	근사 (복셀 단위)	근사 (복셀 + PHC)	엄격 (Strict)	근사 (배열 단위)
맵 업데이트 방식	증분적 해시 삽입	증분적 해시 삽입	증분적 트리 삽입/삭제 + 재균형	증분적 배열 할당 (모듈로 연산)
핵심 장점	구현 단순, 저밀도 환경에서 효율적	고밀도 환경에서 빠른 k-NN 탐색	엄격한 k-NN, 균형 잡힌 탐색	해싱 오버헤드 없음, 최고의 속도
핵심 단점	고밀도 환경에서 비효율적	PHC 오버헤드, 파라미터 민감	재균형 비용, 증분 업데이트 복잡	고정 크기, 메모리 관리 복잡

출처: 기반으로 재구성

iVox와 k-d 트리의 가장 근본적인 차이는 공간을 분할하고 접근하는 방식에 있다. iVox는 공간을 고정된 크기의 격자(grid)로 나누고, 해싱을 통해 각 격자에 $O(1)$ 시간 복잡도로 접근한다. 반면, k-d 트리는 데이터의 분포에 따라 공간을 동적으로 분할하는 트리 구조를 형성하며, 탐색에는 $O(\log N)$ 의 시간이 소요된다. FAST-LIO2 알고리즘에 사용된 ikd-Tree는 기존의 정적 k-d 트리를 개선하여 포인트의 증분적 삽입, 삭제, 그리고 트리의 재균형을 효율적으로 지원하도록 설계되었다.

이 두 구조의 성능 차이는 ‘엄격한 k-NN 탐색’의 필요성에 대한 철학적 차이에서 비롯된다. k-d 트리는 수학적으로 가장 가까운 이웃을 보장하는 ‘엄격한’ 탐색 결과를 제공하는 데 최적화되어 있다. 그러나 iVox의 설계는 LIO 시스템의 특성을 깊이 고려한 결과물이다. LIO 시스템은 LiDAR 데이터뿐만 아니라 IMU 데이터도 함께 사용하는데, IMU는 매우 높은 주기로 로봇의 움직임을 측정하여 다음 순간의 로봇 자세에 대한 매우 정확한 초기 추정치를 제공한다.

이 정확한 초기 추정치 덕분에, 시스템은 현재 스캔의 포인트들이 맵의 어느 부분과 정합되어야 하는지를 이미 높은 확률로 알고 있다. 따라서 전체 맵을 대상으로 광범위하게 이웃을 탐색할 필요가 없으며, 예상 위치 주변의 매우 좁은 영역 내에서만 지역적인 탐색을 수행하면 충분하다. Faster-LIO 논문은 바로 이 점을 지적하며, “정확한 초기 추정치 덕분에 엄격한 k-NN 탐색이나 범위 탐색은 불필요하다(Strict k-NN searches and range searches are unnecessary)”고 명시적으로 밝히고 있다.

결론적으로 iVox는 LIO라는 특정 응용 분야에 고도로 최적화된 도구이다. 엄격한 탐색의 정확성을 보장하는 대신, ‘충분히 좋은’ 근사 이웃을 훨씬 빠른 속도로 찾아내는 방식을 택한 것이다. 이는 센서 융합이 제공하는 이점을 최대한 활용하여 데이터 구조의 설계 자체를 간소화하고 가속화한 영리한 접근법이라 할 수 있다.

RC-Vox(Robocentric Voxel)는 FR-LIO 논문에서 iVox의 성능을 한 단계 더 끌어올리기 위해 제안된 차세대 데이터 구조이다. RC-Vox는 iVox의 직접적인 후속 기술로 볼 수 있으며, iVox의 근본적인 한계를 해결하는 데 초점을 맞추고 있다.

iVox의 성능 병목 지점은 아무리 빠른 해시 함수를 사용하더라도 피할 수 없는 ‘해시 함수 자체의 계산 비용’과 ‘해시 충돌 처리로 인한 오버헤드’이다. RC-Vox는 이 문제를 해결하기 위해 해시 테이블이라는 간접적인 접근 방식을 완전히 버리고, 고정 크기의 2계층 3D 배열(fixed-size, two-layer 3D array)이라는 직접 주소 지정 방식을 채택했다. 배열의 특정 인덱스에 접근하는 것은 진정한 의미의 $O(1)$ 연산으로, 해시 테이블의 평균(amortized) $O(1)$ 보다 빠르고 일관된 성능을 보장한다.

물론, 대규모 맵 전체를 거대한 배열로 표현하는 것은 엄청난 메모리 낭비를 초래한다. RC-Vox는 이 문제를 ‘로봇 중심(robocentric)’이라는 개념으로 해결한다. 즉, 맵 전체를 저장하는 대신, 현재 로봇의 위치를 중심으로 하는 일정 크기의 영역(예: LiDAR 최대 탐사 거리의 2배)만을 배열에 유지한다. 로봇이 이 영역의 경계를 벗어나면, 모듈로(modulo) 연산을 통해 배열의 인덱스를 순환시켜 마치 무한한 공간처럼 사용한다. 이를 통해 메모리 사용량을 일정하게 유지하면서도 배열의 빠른 접근 속도를 활용할 수 있다.

성능 비교 결과는 이러한 설계의 우수성을 명확히 보여준다. FR-LIO 논문에 따르면, 단일 스레드로 동작하는 RC-Vox 기반 시스템이 병렬 처리로 가속화된 iVox 기반 시스템(Faster-LIO)과 동등하거나 오히려 더 빠른 성능을 보인다. 이는 해싱 관련 오버헤드를 제거한 것이 결정적인 성능 향상으로 이어졌음을 증명한다. 이처럼 iVox의 한계가 RC-Vox의 설계를 직접적으로 동기 부여했다는 점은 LiDAR SLAM 데이터 구조 연구의 논리적인 발전 경로를 보여주는 중요한 대목이다.

iVox-PHC 데이터 구조는 경량화와 고속 처리가 핵심 요구사항인 다양한 실시간 자율 시스템에 성공적으로 적용되었다. Faster-LIO 알고리즘을 통해 입증된 바와 같이, 이 기술은 정확도를 희생하지 않으면서도 전례 없는 처리 속도를 달성했다.

주요 응용 분야:
- 자율주행 자동차 (Autonomous Vehicles): 차량 주변 환경을 실시간으로 3D 매핑하고, 지도 내에서 차량의 위치를 센티미터 수준으로 정밀하게 추정하여 안전한 주행 경로를 계획하는 데 필수적이다.
- 무인 항공기 (UAVs / Drones): GPS 신호가 잡히지 않는 실내 공간, 협곡, 도심 빌딩 숲 등에서 강인한 항법과 정밀한 맵 생성을 가능하게 한다. 재난 현장 탐사나 시설물 점검과 같은 임무에 활용된다.
- 모바일 로보틱스 (Mobile Robotics): 물류 창고 내 자율 운송 로봇, 대규모 캠퍼스나 공항의 안내 로봇, 광산이나 터널 내부의 탐사 로봇 등 다양한 지상 기반 로봇의 자율 이동 및 환경 인식에 핵심적인 역할을 수행한다.
성능 데이터: Faster-LIO 논문은 iVox의 실제 성능을 구체적인 수치로 제시한다. 일반적인 32채널 회전형 LiDAR(spinning lidar)의 경우 초당 200 프레임(200 Hz) 이상, 최신 고정형 LiDAR(solid-state lidar)의 경우 초당 1000-2000 프레임(1-2 kHz)에 달하는 스캔 처리 속도를 단일 최신 CPU 코어만으로 달성했다고 보고했다. 이는 기존 방식 대비 획기적인 성능 향상이다. 아래 표는 다양한 환경에서 측정한 iVox의 처리 시간을 다른 데이터 구조와 비교한 결과이다.

Table 2: Faster-LIO (iVox) 성능 측정 데이터 (단위: ms/scan, 평균값)

환경 (Environment)	FPS	iVox 추가 시간 (avg)	증분 매핑 시간 (avg)	PCL k-d 트리 시간 (avg)
실내 (Indoor)	585	0.007	0.036	0.195
실외 (Outdoor)	213	0.048	0.194	0.386
캠퍼스 (Campus)	417	0.120	0.181	0.247

출처:

이 표에서 ‘iVox 추가 시간’과 ‘증분 매핑 시간’은 iVox를 사용한 맵 업데이트에 소요되는 시간을 나타내며, PCL(Point Cloud Library)의 표준 k-d 트리 구축 시간과 비교했을 때 월등히 빠른 것을 확인할 수 있다.

iVox-PHC를 실제 시스템에 성공적으로 적용하기 위해서는 몇 가지 실용적인 고려사항과 파라미터 최적화 과정이 수반된다.

오픈소스 구현: Faster-LIO는 GitHub를 통해 전체 소스 코드가 공개되어 있어 연구 및 개발 목적으로 자유롭게 활용할 수 있다. 코드는 주로 C++로 작성되었으며, 로봇 개발의 표준 플랫폼인 ROS(Robot Operating System) 환경에서 catkin_make나 cmake를 통해 쉽게 컴파일하고 실행할 수 있도록 지원된다.
컴파일 옵션: 앞서 2.3절에서 분석했듯이, 사용자는 컴파일 시점에 -DWITH_IVOX_NODE_TYPE_PHC=ON 플래그를 설정하여 복셀 내 포인트 저장 방식으로 linear iVox와 iVox-PHC 중 하나를 선택할 수 있다. 이는 시스템이 운영될 환경의 예상 포인트 밀도에 따라 최적의 성능을 내는 버전을 선택하기 위한 중요한 결정이다.
복셀 크기(voxel_size) 튜닝의 중요성: iVox 기반 시스템을 실제 환경에 적용할 때 가장 중요하고 민감한 파라미터는 단연 복셀 크기이다. Faster-LIO의 GitHub 저장소는 “만약 Faster-LIO가 불안정하게 동작한다면 복셀 크기를 키워보라(enlarge the voxel size if FasterLIO is not stable)”고 명시적으로 경고하고 있다. 이 경고는 iVox 설계의 근본적인 트레이드오프에서 비롯된 매우 중요한 실용적 조언이다.
- 복셀 크기가 너무 작을 경우: 3차원 공간이 매우 잘게 쪼개져 맵의 해상도는 높아지지만, 관리해야 할 복셀의 총 개수가 기하급수적으로 증가한다. 이는 해시 맵의 크기 증가와 충돌 확률 상승으로 이어진다. 또한, k-NN 탐색 시 충분한 이웃 포인트를 찾기 위해 더 많은 인접 복셀을 확인해야 하므로 계산 부하가 증가한다. 결국 과도한 계산 시간으로 인해 LiDAR 프레임을 실시간으로 처리하지 못하고 시스템 전체가 불안정해질 수 있다.
- 복셀 크기가 너무 클 경우: 서로 다른 기하학적 특징(예: 벽면과 모서리)을 가진 포인트들이 하나의 복셀에 섞여버린다. 이는 맵의 정밀도를 심각하게 저하시키고, 포인트 매칭의 기반이 되는 평면성(planarity)이나 선형성(linearity) 가정을 무너뜨린다. 결과적으로 포인트 클라우드 정합(registration) 알고리즘이 올바르게 수렴하지 못하고 위치 추정에 실패하여 시스템이 발산(diverge)할 수 있다. 또한, 복셀 당 포인트 수 $n$ 이 증가하여 linear iVox의 경우 탐색 성능이 저하된다.
따라서 최적의 복셀 크기는 정해진 값이 아니며, 사용되는 LiDAR 센서의 해상도, 로봇이 움직이는 환경의 구조적 복잡성 등을 종합적으로 고려하여 실험적으로 찾아야 하는 ‘스위트 스폿(sweet spot)’이다. 이는 iVox 기반 시스템의 성능과 안정성을 결정짓는 가장 핵심적인 튜닝 과정이라 할 수 있다.

iVox-PHC는 고속 Lidar-Inertial Odometry(LIO) 시스템이라는 특정 응용 분야의 요구사항을 정확히 파악하고, 이에 맞춰 기존 데이터 구조를 영리하게 변형한 성공적인 사례이다. 이 기술의 핵심적인 공헌과 한계는 다음과 같이 요약할 수 있다.

핵심 강점: iVox-PHC의 가장 큰 강점은 ‘속도’이다. IMU가 제공하는 정확한 초기 추정치를 활용하여, 수학적으로 완벽한 ‘엄격한 k-NN’ 대신 계산적으로 훨씬 저렴한 ‘근사 k-NN’을 채택하는 과감한 설계를 통해 실시간 성능을 극대화했다. 또한, 해싱 기반의 증분적 업데이트 방식은 맵이 계속 커지더라도 유지보수 비용을 최소화하여, k-d 트리와 같은 기존 트리 기반 구조의 고질적인 재균형 문제를 효과적으로 해결했다.
명확한 한계: 높은 성능을 자랑하지만, 그 성능이 복셀 크기와 같은 핵심 파라미터에 매우 민감하다는 실용적인 한계를 가진다. 이는 환경이 바뀔 때마다 전문가의 세심한 튜닝이 필요함을 의미한다. 또한, 해시 테이블 구조에 내재된 해시 함수 계산 및 충돌 처리 오버헤드는 그 자체로 성능의 한계점으로 작용했으며, 이는 RC-Vox와 같은 더 진보된 데이터 구조가 등장하는 직접적인 계기가 되었다.

결론적으로 iVox-PHC는 LIO를 위한 실시간 포인트 클라우드 관리 분야에서 중요한 기술적 이정표를 세웠으며, 속도와 정확성 사이의 트레이드오프를 어떻게 효과적으로 설계할 수 있는지에 대한 훌륭한 사례를 제시했다.

iVox, ikd-Tree, RC-Vox와 같은 데이터 구조들은 모두 인간이 정교하게 설계한 ‘규칙 기반(rule-based)’ 알고리즘의 정점에 있다. 이들은 공간을 어떻게 분할하고, 어떻게 인덱싱하며, 어떻게 탐색할지에 대한 명시적인 규칙에 따라 동작한다. 그러나 SLAM 연구의 최신 동향은 이러한 수동적 설계를 넘어, 데이터로부터 직접 최적의 방법을 학습하는 ‘학습 기반(learning-based)’ 접근법으로 빠르게 이동하고 있다.

이러한 패러다임의 전환은 iVox와 같은 데이터 구조의 미래 역할에 중요한 시사점을 던진다.

그래프 신경망 (Graph Neural Networks, GNNs): 포인트 클라우드를 노드(포인트)와 엣지(포인트 간의 관계)로 구성된 그래프로 간주하고, GNN을 적용하여 포인트 클라우드 정합을 수행하는 연구가 활발히 진행되고 있다. GNN은 각 포인트의 지역적 기하 구조와 위상적 관계를 학습하여, 노이즈나 이상치(outlier)에 훨씬 강인한 특징 표현(feature representation)을 생성할 수 있다. 이는 iVox가 가속하고자 했던 전통적인 ICP(Iterative Closest Point) 기반의 정합 과정 전체를 대체할 잠재력을 가진다.
트랜스포머 (Transformers): 자연어 처리 분야에서 시작된 트랜스포머 아키텍처는 이제 LiDAR SLAM 분야에서도 주목받고 있다. 트랜스포머의 핵심인 셀프-어텐션(self-attention) 메커니즘은 포인트 클라우드 내의 모든 포인트 간의 장거리 의존성(long-range dependency)을 효과적으로 포착할 수 있다. 이를 통해 복셀과 같은 지역적 단위에 갇히지 않고, 맵의 전역적인 맥락을 이해하는 데 도움을 줄 수 있다. TransLO와 같은 연구는 LiDAR 센서 데이터만으로 전체 주행 기록계를 추정하는 트랜스포머 기반 네트워크를 제안하기도 했다.

이러한 학습 기반 접근법들은 미래의 SLAM 시스템이 iVox와 같은 명시적인 데이터 구조에 의존하기보다, 신경망을 통해 맵의 압축된 잠재 표현(latent representation)을 학습하고, 이 학습된 특징 공간 내에서 위치 추정 및 맵핑을 수행할 가능성을 시사한다.

이러한 관점에서 볼 때, iVox-PHC는 특정 문제(실시간 LIO)에 대해 고전적인 컴퓨터 과학 알고리즘을 극한까지 최적화하여 이룬 성과물이라 평가할 수 있다. 이는 그 자체로 높은 기술적 가치를 지니지만, 동시에 SLAM 연구가 규칙 기반 설계에서 종단간 학습(end-to-end learning)으로 나아가는 거대한 흐름 속에서 중요한 과도기적 기술로 자리매김할 것으로 전망된다.