Booil Jung

VDB-GPDF

로봇이 주변 세계를 의미 있고 효과적으로 이해하며 상호작용하기 위해서는 환경에 대한 정밀한 표현이 필수적이다.1 지각(perception), 제어(control), 항법(navigation), 학습(learning), 조작(manipulation) 등 고차원적 임무 수행 능력은 로봇이 구축하는 내부 3D 모델의 품질에 직접적으로 의존한다.3 따라서 현대 로보틱스 연구의 핵심 과제 중 하나는 실제 환경의 물리적 특성을 높은 정확도로 반영하면서, 실시간 온라인 성능을 보장하고, 대규모 시나리오까지 확장 가능한 3D 환경 표현 기술을 개발하는 것이다.1

지난 수십 년간 다양한 3D 환경 표현 기술이 제안되었으나, 각각은 뚜렷한 장점과 함께 본질적인 한계를 지녀왔다.

이러한 기술들의 발전 과정은 일종의 변증법적 흐름으로 해석될 수 있다. 초기의 연구들은 TSDF나 Octree와 같이 계산 효율성에 초점을 맞춘 결정론적, 구조적 방법론을 ‘정(Thesis)’으로 제시했다. 그러나 이들의 기하학적 부정확성이나 확장성 한계가 드러나면서, 이에 대한 대안으로 GPDF와 같이 확률론적이고 높은 정확도를 추구하는 모델이 ‘반(Antithesis)’으로 등장했다. 하지만 GPDF는 극심한 계산 비용이라는 새로운 문제를 야기하며 그 자체로 완벽한 해결책이 되지 못했다.

VDB-GPDF는 이러한 기술적 딜레마를 해결하기 위해 ‘정’과 ‘반’의 패러다임을 융합하는 ‘합(Synthesis)’의 단계에 해당하는 하이브리드 프레임워크를 제안한다.3 이 프레임워크의 핵심 가설은

가우시안 프로세스(GP)가 제공하는 정밀하고 확률적인 표현력OpenVDB 데이터 구조가 제공하는 빠른 접근 속도 및 우수한 확장성을 결합함으로써, 기존 기술들의 장점은 극대화하고 단점은 상호 보완할 수 있다는 것이다.1 VDB-GPDF는 단순히 두 기술을 나란히 사용하는 것을 넘어, L-GPDF와 G-GPDF라는 이중 GP 구조를 통해 계산 문제를 창의적으로 해결하며 ‘정확성’과 ‘효율성’이라는 상충 관계(trade-off)를 극복하려는 시도라는 점에서 기술적 성숙의 새로운 단계를 제시한다.

가우시안 프로세스(GP)는 임의의 유한한 변수 집합이 다변량 가우시안 분포를 따르는 확률 변수들의 집합으로 정의된다.7 이는 점(point)에 대한 분포가 아닌, 함수 전체에 대한 분포를 정의하는 강력한 비모수적(non-parametric) 베이즈(Bayesian) 모델이다.8 GP는 평균 함수 $m(\mathbf{x})$와 공분산 함수(covariance function) 또는 커널(kernel) $k(\mathbf{x}, \mathbf{x}’)$에 의해 완전히 결정된다. \(f(\mathbf{x}) \sim \mathcal{GP}(m(\mathbf{x}), k(\mathbf{x}, \mathbf{x}'))\) 여기서 $f(\mathbf{x})$는 입력 $\mathbf{x}$에 대한 함수 값을 나타내는 확률 변수다.

거리 필드(Distance Field)는 공간상의 임의의 점 $\mathbf{x}$에서 가장 가까운 표면까지의 최단 거리를 값으로 갖는 스칼라 함수 $d(\mathbf{x})$로, 로봇의 충돌 감지, 경로 계획, 물체 조작 등 다양한 응용에 필수적인 정보를 제공한다.9 GP를 이용한 거리 필드 모델링은 여러 단계를 거쳐 발전해왔다.

\[k(\mathbf{x}_i, \mathbf{x}_j) = \sigma_f^2 \exp\left(-\frac{1}{2l^2} ||\mathbf{x}_i - \mathbf{x}_j||^2\right)\]

이 식에서 하이퍼파라미터 l은 데이터 포인트 간의 상관관계 길이를 조절하는 길이 스케일(length-scale)이고, σf2는 함수 값의 전체적인 분산을 나타내는 신호 분산(signal variance)이다.

OpenVDB는 영화 산업의 시각 효과(VFX)를 위해 DreamWorks Animation에서 개발된 C++ 라이브러리로, 동적 토폴로지를 가진 고해상도의 희소 볼륨 데이터를 효율적으로 저장하고 조작하는 데 특화되어 있다.14

OpenVDB의 핵심 철학은 사실상 무한한 3D 인덱스 공간을 지원하면서도 메모리 사용량을 최소화하고, 동시에 빠른 데이터 접근 속도를 보장하는 것이다.17 이를 위해 B+트리와 유사한, 넓고 얕은(wide and shallow) 계층적 트리 구조를 사용한다.1 일반적인 5-4-3 구성은 다음과 같은 노드들로 이루어진다 19:

이 두 기술의 결합은 단순한 ‘빠른 저장소’와 ‘정확한 모델’의 조합을 넘어선다. VDB의 계층적 공간 분할 구조는 GP 계산을 위한 자연스러운 ‘단위’를 제공한다. 구체적으로 VDB-GPDF는 각 VDB 리프 노드 내의 복셀 중심점들을 L-GPDF 학습을 위한 훈련 데이터로 사용한다.21 이는 전역 공간에 대해 수행하면 엄청난 비용이 드는 GP 추론을, 현재 센서 데이터가 존재하는 VDB 리프 노드 단위의 작은 지역 문제로 효과적으로 분할하고 제한하는 역할을 한다. 반대로, GP는 VDB의 각 복셀에 단순한 점유 여부가 아닌, 연속적인 유클리드 거리와 그에 대한 신뢰도(불확실성)라는 풍부한 의미론적 정보를 부여한다.1 이처럼 VDB의 구조적 특성과 GPDF의 모델링 특성은 서로의 단점을 보완하고 장점을 극대화하는 강력한 공생 관계를 형성한다.

VDB-GPDF는 GPDF의 표현력과 VDB의 효율성을 결합하기 위해 다단계 처리 파이프라인을 채택한다. 전체 시스템은 실시간 증분 업데이트와 고품질 전역 맵 생성을 모두 달성하도록 설계되었다.2

프레임워크의 전체적인 데이터 흐름은 다음과 같은 단계로 구성된다 21:

  1. 지역 VDB 구조화: LiDAR나 RGB-D 카메라로부터 들어온 현재 프레임의 센서 측정값을 월드 좌표계로 변환하고, 이를 복셀화하여 지역(local) VDB 구조를 생성한다.
  2. L-GPDF 학습 및 추론: 지역 VDB의 리프 노드 내 복셀 중심점들을 훈련 데이터로 사용하여 임시적인 지역 GP 부호 거리 필드(Local GP Signed Distance Field, L-GPDF)를 학습시킨다.
  3. 테스트 포인트 생성: 현재 시야각 내에서 거리 추정이 필요한 지점들, 즉 테스트 포인트(testing points)를 생성한다.
  4. 확률적 융합: L-GPDF를 사용하여 테스트 포인트들의 거리와 불확실성을 추론하고, 이 결과를 가중 평균 방식을 통해 전역(global) VDB 맵에 융합(fusion)한다.
  5. G-GPDF 생성: 융합이 완료된 전역 VDB 맵으로부터 표면 메시를 추출하고, 이를 기반으로 최종적인 전역 GP 부호 거리 필드(Global GP Signed Distance Field, G-GPDF)를 생성하여 다운스트림 애플리케이션에 제공한다.

L-GPDF는 시스템의 실시간 반응성을 담당하는 핵심 구성 요소다. 이는 전체 맵이 아닌, 현재 들어온 센서 데이터만을 처리하기 위한 임시적이고 잠재적인(temporary latent) 모델이다.1 현재 프레임의 포인트 클라우드가 지역 VDB 구조로 변환되면, 각 리프 노드 내의 복셀 중심점들이 해당 지역의 기하학적 구조를 학습하기 위한 GP의 훈련 데이터로 사용된다.21 이후, 광선 투사(ray-casting) 등을 통해 생성된 테스트 포인트 집합에 대해 L-GPDF는 각 포인트의 유클리드 거리(d^), 표면 속성(색상, 강도 등, c^), 그리고 이 추정치들의 불확실성을 나타내는 분산(σ2)을 빠르고 효율적으로 추론한다.3

확률적 융합은 L-GPDF가 추론한 새로운 정보를 기존의 전역 맵에 통합하는 과정이다. VDB-GPDF는 각 전역 복셀에 거리 값(d)과 누적 가중치(W)를 저장하며, 가중 평균(weighted average) 방식을 사용하여 맵을 점진적으로 업데이트한다.21

새로운 측정값(d^new)과 그에 해당하는 가중치(w)가 주어지면, 기존의 복셀 값(dold, Wold)은 다음 수식에 따라 갱신된다: \(W_{new} = W_{old} + w\)

\[d_{new} = \frac{W_{old} \cdot d_{old} + w \cdot \hat{d}_{new}}{W_{new}}\]

이 과정의 핵심은 가중치 w를 어떻게 결정하느냐에 있다. VDB-GPDF는 L-GPDF로부터 추론된 불확실성(분산)을 기반으로 가중치를 설정함으로써 확률적 융합을 구현한다.1 즉, 추정치의 신뢰도가 높을수록(분산이 작을수록) 더 큰 가중치를 부여하여 맵 업데이트에 더 큰 영향을 미치도록 한다. 공개된 코드 저장소에서는 분산의 역수($w=1/σ2$)를 사용하는 표준적인 방식을 포함한 여러 가중치 전략을 제공한다.22

G-GPDF는 최종적으로 사용자나 다른 로봇 모듈(예: 경로 계획기)에게 제공되는 고품질의 전역 맵이다.3 생성 과정은 다음과 같다. 먼저, 확률적 융합을 통해 업데이트가 완료된 전역 VDB 그리드에서 Marching Cubes와 같은 알고리즘을 사용하여 0-레벨셋, 즉 물체의 표면에 해당하는 밀집된 메시(mesh)를 복구한다.3 그 다음, 이 추출된 표면 메시의 정점(vertices)들을 새로운 훈련 데이터로 삼아 다시 한번 GP 모델을 학습시킨다. 이렇게 생성된 G-GPDF는 GP의 강력한 보간 및 생성 능력 덕분에 맵 상의 임의의 지점에 대해 매우 정확한 유클리드 거리와 해석적으로 계산된 그래디언트(analytical gradient)를 제공할 수 있다.3

VDB-GPDF의 가장 정교한 설계적 특징은 L-GPDF와 G-GPDF라는 이중 GP 구조를 채택한 점에 있다. 이는 ‘온라인 실시간 처리’와 ‘오프라인 고품질 표현’이라는 상이한 두 가지 요구사항을 분리하여 해결하는 지능적인 전략이다. 만약 단일 전역 GP 모델만을 사용했다면, 매 프레임마다 들어오는 수천 개의 새로운 데이터 포인트를 기존의 수백만 포인트에 추가하여 모델 전체를 재학습해야 했을 것이다. 이는 $O((N_{old}+N_{new})^3)$의 계산량으로 실시간 처리가 불가능하다. VDB-GPDF는 이 문제를 회피한다. 실시간 융합은 계산 비용이 저렴한 L-GPDF와 VDB의 가중 평균 업데이트를 통해 이루어진다.1 비싼 GP 계산은 현재 프레임의 제한된 데이터에 대해서만 지역적으로 수행된다. 반면, 최종 산출물인 G-GPDF는 필요할 때(on-demand) 또는 주기적으로, 누적되고 정제된 전역 표면 데이터로부터 생성되어 최고의 정확성과 표현력을 보장한다.3 이 이중 구조 덕분에 프레임워크는 매 프레임마다 전역 GP를 업데이트하는 계산적 재앙을 피하면서도, 최종적으로는 전역적으로 일관되고 연속적인 고품질 거리 필드를 제공할 수 있게 된다.

VDB-GPDF의 성능은 Voxblox, VDB-EDT, VDBFusion 등 최신 3D 매핑 프레임워크들과의 비교를 통해 검증되었다.1 평가는 실내 환경을 촬영한 RGB-D 데이터셋(예: Cow and Lady)부터 대규모 실외 환경을 포괄하는 LiDAR 데이터셋(예: KITTI, Newer College)에 이르기까지 다양한 시나리오에서 수행되었다.22

아래 표는 각 프레임워크의 핵심 특징과 성능을 정성적으로 요약한 것이다.

표 1: 주요 3D 매핑 프레임워크 정량적 성능 비교

프레임워크 (Framework) 핵심 데이터 구조 거리 필드 종류 거리 정확도 (RMSE) 재구성 정확도 처리 시간
Voxblox 4 Hashed Voxel Grid ESDF (TSDF에서 전파) 높음 (근사 오차) 보통 빠름
VDBFusion 4 OpenVDB TSDF (ESDF 미제공) 해당 없음 높음 매우 빠름
VDB-EDT 1 OpenVDB EDF (거리 변환) 보통 보통 빠름
VDB-GPDF 1 OpenVDB + GPDF ESDF (GP 직접 추론) 매우 낮음 높음 경쟁력 있음

VDB-GPDF의 성능 우위는 모든 조건에서 균일하게 나타나기보다는 특정 조건에서 더욱 극대화되는 비대칭성을 보인다. 그 진정한 강점은 평평하고 데이터가 밀집된 ‘쉬운’ 환경보다, 데이터가 희소하거나(sparse) 센서가 표면과 평행하게 움직여 관측이 어려운 ‘어려운’ 환경에서 더욱 두드러진다. VDBFusion과 같은 순수 TSDF 기반 방법은 관측된 깊이 값의 가중 평균에 의존하므로, 관측이 없는 영역이나 스쳐 지나가는 표면에 대한 정보를 생성하기 어렵다. 반면, VDB-GPDF의 GP는 이러한 영역을 확률적으로 추론하고 부드럽게 보간하여 더 완전한 모델을 생성한다.1 이는 GP가 데이터 포인트 사이의 공간을 통계적으로 채우고, 관측이 없는 영역에 대한 예측(평균과 분산)을 제공하는 본질적인 능력에서 기인한다.7 따라서 VDB-GPDF의 성능은 단순 평균 비교를 넘어, 데이터의 불확실성과 희소성이 높은 까다로운 시나리오에서의 강건함(robustness) 측면에서 더 큰 의미를 가진다.

VDB-GPDF가 제공하는 정확한 거리 필드, 그래디언트, 불확실성 정보는 기존 매핑 기술로는 접근하기 어려웠던 다양한 다운스트림 애플리케이션의 문을 열었다.

VDB-GPDF는 많은 발전을 이루었지만, 여전히 몇 가지 기술적 한계를 가지고 있다.

VDB-GPDF는 향후 여러 방향으로 확장될 수 있는 풍부한 잠재력을 가지고 있다.

이러한 확장 가능성은 VDB-GPDF가 단순히 더 나은 ‘맵’을 만드는 기술을 넘어, 로봇의 다양한 지능적 작업을 지원하는 ‘통합 표현(Unified Representation)’으로서의 잠재력을 가지고 있음을 시사한다.26 과거에는 매핑, 측위, 경로 계획, 조작 등 각 작업마다 별도의 특화된 데이터 표현이 필요했다.27 그러나 VDB-GPDF가 제공하는 [거리, 그래디언트, 표면 속성, 불확실성]이라는 풍부한 정보 집합은 이 모든 작업을 단일 표현 위에서 수행할 수 있는 강력한 이론적 기반을 제공한다. 예를 들어, 경로 계획기는 그래디언트를 따라 최적의 경로를 탐색하고, 충돌 감지기는 거리 값을 확인하며, 탐험 알고리즘은 불확실성(분산)이 높은 미지의 영역으로 로봇을 유도할 수 있다. 이 모든 정보가 단일 GPDF 모델에서 파생된다. 이는 로봇 소프트웨어 아키텍처의 복잡성을 획기적으로 줄이고, 각 기능 모듈 간의 유기적인 시너지를 극대화하여 보다 고차원적인 로봇 지능을 구현하는 중요한 초석이 될 수 있다.

VDB-GPDF는 가우시안 프로세스 거리 필드(GPDF)가 지닌 확률적 정확성과 연속성의 장점을 OpenVDB 데이터 구조의 탁월한 계산 효율성 및 확장성과 성공적으로 결합한 혁신적인 3D 매핑 프레임워크다. 이를 통해 기존 기술들이 직면했던 정확성, 효율성, 확장성 간의 고질적인 상충 관계를 효과적으로 완화하며, 온라인 증분 매핑 분야에서 새로운 가능성을 제시했다.

본 프레임워크는 단일 기술의 한계를 명확히 인식하고, 이종 기술의 장점을 융합하여 더 나은 해결책을 모색하는 현대 로보틱스 연구의 성공적인 사례로 평가될 수 있다. 특히, 실시간 처리를 위한 L-GPDF와 전역적 고품질 표현을 위한 G-GPDF의 이중 GP 구조는 계산적 제약 하에서 이론적 우아함과 실용적 성능을 모두 달성하기 위한 지능적인 설계의 정수를 보여준다.

VDB-GPDF는 정적인 3D 환경을 재구성하는 것을 넘어, 동적 환경 이해, 인간-로봇 상호작용, 고차원적 계획 등 미래 로보틱스 기술의 핵심 기반이 될 ‘통합 표현’으로서의 무한한 잠재력을 내포하고 있다. 향후 SLAM과의 강결합, 시공간 모델링으로의 확장, 그리고 최신 렌더링 기술과의 융합을 통해 그 기술적 영향력은 더욱 증대될 것으로 전망된다. 이는 궁극적으로 로봇이 복잡하고 불확실한 현실 세계와 더욱 정교하고 지능적으로 상호작용할 수 있도록 하는 데 결정적인 기여를 할 것이다.

  1. (PDF) VDB-GPDF: Online Gaussian Process Distance Field with VDB Structure - ResearchGate, accessed August 6, 2025, https://www.researchgate.net/publication/382271448_VDB-GPDF_Online_Gaussian_Process_Distance_Field_with_VDB_Structure
  2. VDB-GPDF: Online Gaussian Process Distance Field with VDB Structure - arXiv, accessed August 6, 2025, https://arxiv.org/html/2407.09649v1
  3. VDB-GPDF: Online Gaussian Process Distance Field with VDB Structure - arXiv, accessed August 6, 2025, https://arxiv.org/html/2407.09649v3
  4. VDB-GPDF: Online Gaussian Process Distance Field with VDB Structure - arXiv, accessed August 6, 2025, https://arxiv.org/html/2407.09649v2
  5. [2407.09649] VDB-GPDF: Online Gaussian Process Distance Field with VDB Structure, accessed August 6, 2025, https://arxiv.org/abs/2407.09649
  6. VDB-GPDF: Online Gaussian Process Distance Field with VDB Structure Request PDF, accessed August 6, 2025, https://www.researchgate.net/publication/386122570_VDB-GPDF_Online_Gaussian_Process_Distance_Field_with_VDB_Structure
  7. Gaussian process - Wikipedia, accessed August 6, 2025, https://en.wikipedia.org/wiki/Gaussian_process
  8. Gaussian Processes for Dummies /, accessed August 6, 2025, https://katbailey.github.io/post/gaussian-processes-for-dummies/
  9. [2302.13005] Accurate Gaussian Process Distance Fields with applications to Echolocation and Mapping - arXiv, accessed August 6, 2025, https://arxiv.org/abs/2302.13005
  10. Gaussian Process Motion Planning, accessed August 6, 2025, https://homes.cs.washington.edu/~bboots/files/GPMP.pdf
  11. Accurate Gaussian-Process-based Distance Fields with applications to Echolocation and Mapping - arXiv, accessed August 6, 2025, https://arxiv.org/html/2302.13005v3
  12. Gaussian Process Implicit Surfaces for Shape Estimation and Grasping - Learning and Intelligent Systems @ TU Berlin, accessed August 6, 2025, https://argmin.lis.tu-berlin.de/papers/11-dragiev-ICRA.pdf
  13. Probabilistic Implicit Surfaces for Localisation, Mapping and Planning - OPUS at UTS, accessed August 6, 2025, https://opus.lib.uts.edu.au/bitstream/10453/172297/1/thesis.pdf
  14. OpenVDB - OpenVDB, accessed August 6, 2025, https://www.openvdb.org/documentation/doxygen/
  15. OpenVDB - Ken Museth, accessed August 6, 2025, https://ken.museth.org/OpenVDB.html
  16. What is OpenVDB and why should you care? [thinkingParticles Documentation], accessed August 6, 2025, https://cebas.com/manual/LifeLicenser/doku.php?id=reference_guide:thinkingparticles_nodes:operator_nodes:openvdb:what_is_openvdb
  17. Frequently Asked Questions - OpenVDB, accessed August 6, 2025, https://www.openvdb.org/documentation/doxygen/faq.html
  18. About OpenVDB, accessed August 6, 2025, https://www.openvdb.org/about/
  19. Insight: VDB, a deep dive - JangaFX, accessed August 6, 2025, https://jangafx.com/insights/vdb-a-deep-dive
  20. www.openvdb.org, accessed August 6, 2025, https://www.openvdb.org/documentation/doxygen/faq.html#:~:text=OpenVDB%20stores%20voxel%20data%20in,all%20levels%20of%20the%20tree.
  21. A Scene Representation for Online Spatial Sonification - arXiv, accessed August 6, 2025, https://arxiv.org/html/2412.05486v1
  22. UTS-RI/VDB_GPDF - GitHub, accessed August 6, 2025, https://github.com/UTS-RI/VDB_GPDF
  23. Comparison of ground truth and estimated EDF with a 2D horizontal slice… - ResearchGate, accessed August 6, 2025, https://www.researchgate.net/figure/Comparison-of-ground-truth-and-estimated-EDF-with-a-2D-horizontal-slice-09-m-above-the_fig3_382271448
  24. A Scene Representation for Online Spatial Sonification - Bohrium, accessed August 6, 2025, https://www.bohrium.com/paper-details/a-scene-representation-for-online-spatial-sonification/1073851062688940033-108625
  25. [2410.17831] Gaussian Process Distance Fields Obstacle and Ground Constraints for Safe Navigation - arXiv, accessed August 6, 2025, https://arxiv.org/abs/2410.17831
  26. Lan Wu - CatalyzeX, accessed August 6, 2025, https://www.catalyzex.com/author/Lan%20Wu
  27. Exploring Probabilistic Distance Fields in Robotics - arXiv, accessed August 6, 2025, https://arxiv.org/html/2405.18965v1
  28. Gaussian Process Dynamical Models - Gregory Gundersen, accessed August 6, 2025, https://gregorygundersen.com/blog/2020/07/24/gpdm/
  29. Revisiting Gaussian Process Dynamical Models - IJCAI, accessed August 6, 2025, https://www.ijcai.org/Proceedings/15/Papers/152.pdf
  30. Gaussian Process Dynamical Models, accessed August 6, 2025, https://www.dgp.toronto.edu/~jmwang/gpdm/nips05final.pdf
  31. 3D Gaussian Splatting: Hands-on Course for Beginners - 3D Geodata Academy, accessed August 6, 2025, https://learngeodata.eu/3d-gaussian-splatting-hands-on-course-for-beginners/
  32. Gaussian methods for 3D Reconstruction by Carlo C. AI monks.io - Medium, accessed August 6, 2025, https://medium.com/aimonks/gaussian-methods-for-3d-reconstruction-a5cff3c851fb