Booil Jung

Truncated Signed Distance Field (TSDF)

자율 이동 로봇을 위한 TSDF

컴퓨터 비전, 로보틱스, 그리고 컴퓨터 그래픽스 분야에서 3차원 물리적 세계를 디지털 형태로 정밀하게 표현하고 이해하는 능력은 수많은 첨단 기술의 근간을 이루는 핵심 과제이다. 자율 주행 자동차가 주변 환경을 인식하고 안전한 경로를 계획하는 것부터, 증강 현실(AR) 애플리케이션이 가상 객체를 실제 공간에 자연스럽게 배치하는 것, 그리고 로봇 팔이 복잡한 환경 속에서 목표물을 정확하게 집어 올리는 조작(manipulation) 작업에 이르기까지, 이 모든 응용 분야는 효율적이고 정확한 3차원 모델을 전제로 한다.1 이러한 모델은 단순히 기하학적 형태를 담는 것을 넘어, 로봇의 자율적 행동을 위한 의사결정, 인간과 기계의 상호작용, 그리고 가상 시뮬레이션의 기반이 되는 필수적인 정보를 제공한다.

전통적으로 3차원 객체나 환경은 정점(vertex)과 면(face)의 집합으로 표면을 직접 기술하는 명시적 표현(explicit representation) 방식, 예를 들어 삼각형 메시(mesh)나 점 구름(point cloud)으로 표현되어 왔다. 그러나 이러한 방식들은 위상(topology) 변경이 어렵고, 센서 데이터에 내재된 노이즈를 처리하거나 여러 시점의 데이터를 일관성 있게 통합하는 데 구조적인 한계를 지닌다.5 이러한 배경 속에서, 공간 자체의 속성을 하나의 함수로 정의하는 암시적 표현(implicit representation) 방식이 강력한 대안으로 부상하였다. 특히, 2010년대 초반 Microsoft Kinect와 같은 저가형 실시간 깊이 센서의 등장은 3D 인식 기술의 대중화를 이끌었고, 이는 곧 알고리즘의 패러다임 전환을 촉발하는 기폭제가 되었다.6

이러한 기술적 흐름의 중심에 바로 Truncated Signed Distance Field (TSDF)가 있다. TSDF는 저렴한 하드웨어로부터 실시간으로 쏟아져 나오는 노이즈 섞인 깊이 데이터 스트림을 강건하고(robust) 효율적으로 융합하여, 고품질의 3차원 모델을 실시간으로 재구성하는 문제를 해결하기 위해 탄생한 표현 방식이다.9 저가형 하드웨어의 보급이 실시간 데이터 처리 알고리즘의 개발을 촉진하고, 다시 그 알고리즘의 성공이 증강 현실이나 로봇 공학과 같은 새로운 응용 분야를 개척하는 선순환 구조가 만들어졌다. 이 과정에서 최초의 TSDF 구현체들이 가졌던 메모리 및 확장성 문제는 다시 복셀 해싱(voxel hashing)이나 옥트리(octree)와 같은 후속 연구를 통해 해결되어 나갔다. 이처럼 TSDF의 발전사는 하드웨어의 발전과 알고리즘의 혁신이 어떻게 서로를 이끌며 기술 생태계를 형성하는지를 보여주는 대표적인 사례라 할 수 있다.

본 보고서는 현대 3차원 재구성 분야의 초석으로 자리매김한 TSDF에 대한 심층적이고 체계적인 고찰을 제공하는 것을 목표로 한다. 이를 위해 TSDF의 이론적 기반이 되는 암시적 표현과 부호 거리 필드(Signed Distance Field, SDF)의 기본 원리에서부터 시작하여, TSDF의 수학적 공식, 핵심 알고리즘인 데이터 통합(integration) 및 표면 추출(surface extraction) 과정을 상세히 분석한다. 나아가, 초기 TSDF가 가졌던 확장성 문제를 극복하기 위해 제안된 복셀 해싱 및 옥트리와 같은 고급 기법들을 살펴보고, 동시적 위치 추정 및 지도 작성(SLAM)과 로보틱스 분야에서의 주요 응용 사례를 조명한다. 마지막으로, 점 구름, 메시, 그리고 최신 신경망 기반 표현 방식인 Neural Radiance Fields (NeRF)와의 비교 분석을 통해 TSDF의 기술적 장단점과 현재적 의의를 종합적으로 평가하고 미래 방향성을 전망한다.

3차원 기하학을 표현하는 방식은 크게 명시적 표현과 암시적 표현으로 나눌 수 있다. 이 두 접근 방식의 근본적인 차이를 이해하는 것은 TSDF의 개념적 토대를 파악하는 데 필수적이다.

명시적 표현은 표면을 구성하는 기하학적 요소들을 직접적으로 정의하는 방식이다. 가장 대표적인 예는 삼각형 메시(triangular mesh)로, 이는 3차원 공간상의 정점(vertices), 이 정점들을 연결하는 모서리(edges), 그리고 세 개의 모서리로 둘러싸인 면(faces)의 집합으로 표면을 기술한다. 또 다른 예로는 NURBS(Non-Uniform Rational B-Splines)나 스플라인(splines)과 같은 파라메트릭 표면이 있으며, 이는 $s: \mathbb{R}^2 \rightarrow \mathbb{R}^3$와 같은 함수를 통해 2차원 파라미터 공간 $(u, v)$의 점을 3차원 표면 위의 점 $(x, y, z)$으로 직접 사상한다.5

명시적 표현은 기하학적 형태를 직관적으로 표현하고 기존의 그래픽스 파이프라인을 통해 효율적으로 렌더링할 수 있다는 장점이 있다. 그러나 몇 가지 본질적인 한계를 내포한다. 첫째, 임의의 한 점이 주어진 객체의 내부에 있는지 외부에 있는지 판별하는 ‘내/외부 테스트(inside/outside test)’가 복잡하고 계산 비용이 높다. 둘째, 객체의 위상(topology)이 변하는 경우, 예를 들어 두 객체가 합쳐지거나 하나의 객체가 나뉘는 상황을 처리하기 위해 메시 구조를 복잡하게 재구성해야 한다.5

암시적 표현은 표면을 직접 정의하는 대신, 공간 자체의 속성을 기술하는 함수를 통해 표면을 간접적으로 정의한다. 구체적으로, 공간상의 모든 점 $p = (x, y, z)$에 대해 스칼라 값을 반환하는 함수 $f: \mathbb{R}^3 \rightarrow \mathbb{R}$를 정의한다. 이 함수의 특정 등위면(level-set 또는 isosurface), 통상적으로 $f(p) = 0$이 되는 점들의 집합이 바로 우리가 찾고자 하는 표면을 암시적으로 나타낸다.5

이러한 관점에서 암시적 표현은 사실상 ‘명시적 부피(explicit volume)’ 표현이라고 할 수 있다.5 함수 $f(p)$의 값은 해당 점이 부피의 안과 밖 중 어디에 위치하는지를 명시적으로 알려주기 때문이다. 일반적으로 다음과 같은 부호 관례가 사용된다.

$f(p) > 0$: 점 $p$가 객체의 외부에 있다.
$f(p) < 0$: 점 $p$가 객체의 내부에 있다.
$f(p) = 0$: 점 $p$가 객체의 표면 위에 있다.

이러한 정의 덕분에 암시적 표현은 여러 장점을 가진다. 내/외부 테스트는 단순히 함수 값의 부호를 확인하는 것으로 즉시 수행될 수 있어 충돌 감지(collision detection)에 매우 유용하다.5 또한, 두 암시적 함수를 조합하여 불리언 연산(union, intersection, difference)을 쉽게 수행할 수 있으며, 함수의 등위면이 자연스럽게 위상 변화를 처리하므로 복잡한 위상을 갖는 객체나 동적으로 변하는 형태를 표현하는 데 강건하다.11

부호 거리 필드(Signed Distance Function, SDF)는 암시적 표현의 가장 중요하고 널리 사용되는 한 형태로, 함수 $f$가 특별한 의미, 즉 ‘가장 가까운 표면까지의 부호 있는 유클리드 거리’를 갖는 경우를 말한다.12

어떤 집합 $\Omega \subset \mathbb{R}^n$과 그 경계면 $\partial\Omega$가 주어졌을 때, 공간상의 한 점 $x$로부터 집합 $\Omega$까지의 부호 거리 함수 $d(x)$는 다음과 같이 정의된다.5 $d(x) = \begin{cases} \inf_{y \in \partial\Omega} \|x - y\| & \text{if } x \in \Omega^c \text{ (outside)} \\ 0 & \text{if } x \in \partial\Omega \text{ (on surface)} \\ -\inf_{y \in \partial\Omega} \|x - y\| & \text{if } x \in \Omega \text{ (inside)} \end{cases}$ 여기서 $|x - y|$는 두 점 사이의 유클리드 거리를 의미하며, $\inf$는 하한(infimum)을 나타낸다. 즉, SDF 값의 절댓값은 가장 가까운 표면까지의 최단 거리이며, 부호는 해당 점이 표면을 기준으로 안쪽에 있는지 바깥쪽에 있는지를 나타낸다. 참고로, 내부를 양수로, 외부를 음수로 정의하는 반대의 부호 관례도 사용될 수 있다.14

SDF는 기하학적으로 매우 유용한 속성들을 가지고 있다.

아이코날 방정식(Eikonal Equation): 표면을 제외한 거의 모든 곳에서 SDF의 그래디언트(gradient) 벡터의 크기(norm)는 1이다: $|\nabla d(x)| = 1$. 이는 SDF가 거리 함수임을 나타내는 근본적인 속성이다.14
표면 법선(Surface Normal): 표면 위의 한 점 $x \in \partial\Omega$에서 계산된 SDF의 그래디언트는 해당 지점의 단위 법선 벡터(unit normal vector) $N(x)$와 같다: $\nabla d(x) = N(x)$.14 이 속성 덕분에 SDF는 표면의 위치 정보뿐만 아니라 방향 정보(orientation)까지 암시적으로 포함하게 되며, 이는 렌더링 시 음영 계산이나 물리 시뮬레이션에 매우 중요하다.1
저장 방식: SDF는 구나 평면과 같은 간단한 기하학적 형상에 대해서는 수학적 방정식으로 직접 표현될 수 있다. 그러나 복잡한 형태의 경우, 3차원 공간을 이산적인 복셀 그리드(voxel grid)로 나누고 각 복셀의 중심점에서 SDF 값을 샘플링하여 저장하는 방식을 주로 사용한다.5 그리드 상의 임의의 지점에서의 SDF 값은 주변 복셀 값들을 삼선형 보간(trilinear interpolation)하여 근사할 수 있다.

SDF는 이론적으로 강력한 표현 방식이지만, 실제 응용에서는 몇 가지 현실적인 문제에 직면한다. 특히, 무한한 공간 전체에 대해 거리 값을 계산하고 저장하는 것은 불가능하다. 또한, 깊이 카메라와 같은 센서는 제한된 시야각을 가지며 전체 장면에 대한 정보를 한 번에 제공하지 못한다. 이러한 문제들을 해결하기 위해 등장한 실용적인 변형이 바로 절단 부호 거리 필드(Truncated Signed Distance Field, TSDF)이다.13

TSDF의 핵심 아이디어는 SDF 값을 표면 근처의 좁은 대역(band) 내에서만 정확하게 유지하고, 이 대역을 벗어나는 먼 지역의 값은 특정 값으로 고정(clamp) 또는 절단(truncate)하는 것이다.13 이 좁은 대역의 폭을 정의하는 파라미터를 ‘절단 거리(truncation distance)’라 하며, 보통 $\tau$로 표기한다. 일반적으로 TSDF 값은 [-1, 1] 범위로 정규화되며, 절단 대역 밖의 점들은 각각 $+1$(표면에서 멀리 떨어진 외부) 또는 $-1$(표면에서 멀리 떨어진 내부) 값을 갖게 된다.1

SDF를 절단하는 것은 다음과 같은 여러 실용적인 이유 때문이다.

메모리 효율성 및 실용성: 3D 재구성에 있어 가장 중요한 정보는 표면의 위치와 형태를 결정하는 표면 근방의 데이터이다. 표면에서 멀리 떨어진 지점의 정확한 거리 값은 상대적으로 중요도가 낮다. TSDF는 정보가 밀집된 이 영역에만 계산 및 저장 자원을 집중함으로써, 전체 SDF를 저장하는 것에 비해 메모리 사용량을 획기적으로 줄이고 데이터 처리를 가속화한다.1
부분 관측으로부터의 융합: 깊이 카메라는 특정 시점에서 광선을 따라 물체까지의 거리, 즉 투영 거리(projective distance)만을 측정한다. 이는 진정한 의미의 유클리드 거리(최단 거리)와는 다르다. TSDF는 이러한 불완전하고 부분적인 관측치들을 여러 시점에서 누적하여 점진적으로 하나의 일관된 3차원 볼륨으로 융합(fusion)하는 프레임워크를 제공한다.1 절단 대역은 각 측정의 영향 범위를 제한하는 역할을 한다.
센서 노이즈 모델링: 실제 깊이 센서의 측정값에는 상당한 노이즈가 포함되어 있다. 절단 대역폭 $\tau$는 이러한 노이즈의 통계적 특성과 연관 지어 설정될 수 있다. 여러 프레임에 걸쳐 절단 대역 내의 TSDF 값들을 가중 평균함으로써, 개별 측정에 포함된 랜덤 노이즈를 효과적으로 상쇄시키고 더 매끄럽고 강건한 표면을 재구성할 수 있다.1
얇은 구조물 처리: 종이 한 장과 같이 매우 얇은 객체를 재구성할 때, 객체의 앞면에서 측정한 정보와 뒷면에서 측정한 정보가 공간적으로 매우 가까운 복셀들에 영향을 미치게 된다. 만약 절단 거리가 객체의 두께보다 크면, 양수 SDF 값과 음수 SDF 값이 서로 간섭하여 평균화 과정에서 표면이 두꺼워지거나 심지어 사라지는 문제가 발생할 수 있다. 절단 거리 $\tau$를 작게 설정하면 이러한 간섭 효과를 완화하여 얇은 구조물을 더 잘 보존하는 데 도움이 된다.1

TSDF 값은 일반적으로 다음과 같은 과정을 통해 계산된다. 먼저, 깊이 카메라로부터 얻은 깊이 이미지 $D_{cam}$과 카메라 내부 파라미터(intrinsic parameters)를 이용하여, 특정 복셀의 중심점 $x$를 카메라 이미지 평면에 투영한다. 이 투영된 픽셀 좌표를 $u$라고 하자.

투영 깊이(Projective Depth): 복셀 중심 $x$의 카메라 좌표계에서의 z값, 즉 카메라 원점으로부터 광축을 따라 $x$까지의 거리를 $\lambda(x)$라고 한다.
측정 깊이(Measured Depth): 이미지 픽셀 $u$에 해당하는 깊이 값 $D_{cam}(u)$를 조회한다.
SDF 근사: 이 두 값의 차이를 통해 SDF를 근사한다: $\text{SDF}(x) \approx D_{cam}(u) - \lambda(x)$.
절단 및 정규화: 계산된 SDF 값을 절단 거리 $\tau$를 사용하여 [-1, 1] 범위로 정규화하여 최종 TSDF 값 $d(x)$를 얻는다.

\[d(x) = \max\left(-1, \min\left(1, \frac{D_{cam}(u) - \lambda(x)}{\tau}\right)\right)\]

이 공식은 단일 측정으로부터의 TSDF 값을 나타내며, 실제 시스템에서는 여러 프레임의 측정값을 가중 평균하여 볼륨을 점진적으로 업데이트한다.23

절단 거리 $\tau$는 단순한 파라미터를 넘어, 노이즈에 대한 강건성과 기하학적 정밀도 사이의 근본적인 트레이드오프를 내포한다. $\tau$ 값을 크게 설정하면 더 넓은 영역의 측정값들이 평균화에 기여하므로, 센서 노이즈에 더 강건하고 부드러운 표면을 얻을 수 있다.18 하지만 이는 얇은 구조물이나 날카로운 모서리에서 ‘두꺼워지는 현상(thickening artifact)’을 악화시키고, 앞면과 뒷면의 정보가 서로를 상쇄시켜 기하학적 디테일을 파괴하는 원인이 된다.19 반대로 $\tau$ 값을 작게 설정하면 얇은 구조를 더 잘 보존할 수 있지만, 노이즈에 더 민감해지고 측정 데이터가 희소할 경우 표면이 끊어지는 문제가 발생할 수 있다. 이 딜레마는 모든 장면에 대해 최적인 단일 $\tau$ 값이 존재하지 않음을 시사하며, 표면의 방향에 따라 여러 TSDF 값을 저장하는 Directional TSDF 27나, 데이터로부터 비선형적인 융합 규칙을 학습하는 기계 학습 기반 접근법 21의 등장을 촉발하는 중요한 동기가 되었다.

TSDF의 진정한 힘은 단일 깊이 이미지를 변환하는 것을 넘어, 연속적인 깊이 데이터 스트림을 하나의 일관된 3차원 볼륨으로 점진적으로 융합(integration)하는 능력에서 발현된다. 이 과정의 핵심은 실시간성과 정확성을 양립시키는 것이며, 이 분야의 기념비적인 연구가 바로 KinectFusion이다.

2011년 Newcombe 등이 발표한 KinectFusion은 저가형 Microsoft Kinect 센서와 범용 GPU의 병렬 처리 능력을 결합하여, 실시간으로 고품질의 3차원 모델을 생성하는 최초의 시스템을 선보이며 3D 비전 분야에 혁명을 일으켰다.7 사용자가 Kinect 카메라를 손에 들고 실내 공간을 비추며 움직이면, KinectFusion 시스템은 실시간으로 카메라의 6 자유도(6-DOF) 포즈를 추적함과 동시에, 새로 들어오는 깊이 정보를 전역 TSDF 볼륨에 지속적으로 융합하여 기하학적으로 정확한 모델을 구축한다.29

KinectFusion의 기술적 특징은 다음과 같다.

센서 의존성: 컬러(RGB) 데이터에 의존하지 않고 오직 깊이 데이터만을 사용함으로써, 조명 변화가 심하거나 어두운 환경에서도 강건하게 동작할 수 있다.7
카메라 추적: 전통적인 SLAM 시스템처럼 희소한 특징점(sparse features)을 추출하고 매칭하는 대신, 입력된 전체 깊이 맵(dense depth map)을 이전에 재구성된 3D 모델과 직접 정합하는 ‘프레임-대-모델(frame-to-model)’ 방식을 사용한다. 구체적으로는 반복적 최근접점(Iterative Closest Point, ICP) 알고리즘을 사용하며, 이는 매우 정확하고 안정적인 포즈 추정을 가능하게 한다.7
3D 표현: 3차원 공간을 고정된 크기의 정규 복셀 그리드(regular voxel grid)로 표현하고, 각 복셀에 TSDF 값을 저장한다. 이 방식은 구조가 단순하여 GPU에서의 병렬 처리에 매우 유리하다.16
실시간 성능: 전체 파이프라인을 GPU 상에서 고도로 병렬화하여, 사용자가 자신의 움직임에 대한 피드백을 즉각적으로 받으며 상호작용할 수 있는 실시간 속도(interactive real-time rates)를 달성했다.7

KinectFusion과 그 후속 시스템들에서 사용되는 TSDF 융합 파이프라인은 일반적으로 다음과 같은 네 단계의 순환 과정으로 이루어진다.

데이터 획득 (Measurement): $k$번째 시점에서 깊이 센서로부터 새로운 깊이 이미지 $D_k$를 획득한다. 컬러 이미지 $C_k$도 함께 획득하여 텍스처 매핑에 사용할 수 있다.
포즈 추정 (Pose Estimation): 현재 프레임의 카메라 포즈 $T_k$를 추정한다. 이는 현재 깊이 이미지 $D_k$를, 이전 단계까지 누적된 TSDF 볼륨으로부터 렌더링한 가상(virtual) 깊이 이미지 $\hat{D}_{k-1}$에 정합(registration)함으로써 이루어진다. 이 과정에서 ICP 알고리즘이 주로 사용된다.9
TSDF 통합 (Update / Integration): 새로 추정된 카메라 포즈 $T_k$를 사용하여, 현재 깊이 이미지 $D_k$의 정보를 전역 TSDF 볼륨에 융합한다. 이 과정에서 각 복셀의 TSDF 값과 가중치가 업데이트된다.32
표면 예측 (Surface Prediction / Raycasting): 업데이트된 TSDF 볼륨으로부터 현재 카메라 포즈 $T_k$ 시점에서의 가상 깊이 이미지와 표면 법선 맵(normal map)을 렌더링(raycasting)한다. 이렇게 생성된 가상 표면 모델은 다음 프레임($k+1$)의 포즈 추정 단계에서 기준 모델로 사용될 뿐만 아니라, 사용자에게 현재까지 재구성된 결과를 시각화하여 보여주는 역할도 한다.9

이 파이프라인은 매 프레임마다 반복되며, 이 과정을 통해 노이즈가 많고 불완전한 개별 깊이 이미지들이 점차 하나의 정밀하고 완전한 3D 모델로 통합된다.

TSDF 통합의 핵심은 새로운 측정값을 기존의 추정치와 어떻게 결합할 것인가에 있으며, 이는 가중 평균(weighted average) 방식을 통해 이루어진다. 각 복셀은 TSDF 값뿐만 아니라, 해당 값의 신뢰도를 나타내는 가중치(weight) 값을 함께 저장한다.24

$i-1$번째 프레임까지 누적된 복셀 $x$의 TSDF 값과 가중치를 각각 $D_{i-1}(x)$와 $W_{i-1}(x)$라 하고, $i$번째 프레임에서 새로 계산된 TSDF 값과 그에 대한 가중치를 각각 $d_i(x)$와 $w_i(x)$라고 할 때, 업데이트된 TSDF 값 $D_i(x)$와 가중치 $W_i(x)$는 다음과 같은 점진적 평균(incremental average) 공식으로 계산된다.1 $D_{i}(x) = \frac{W_{i-1}(x)D_{i-1}(x) + w_{i}(x)d_{i}(x)}{W_{i-1}(x) + w_{i}(x)}$

\[W_{i}(x) = W_{i-1}(x) + w_{i}(x)\]

실제 구현에서는 오래된 측정값의 영향력이 무한정 커지는 것을 방지하고, 환경 변화에 어느 정도 적응할 수 있도록 누적 가중치에 최대값 $W_{max}$를 설정하기도 한다.1 $W_{i}(x) = \min(W_{i-1}(x) + w_{i}(x), W_{max})$ 새로운 측정에 대한 가중치 $w_i(x)$는 다양한 방식으로 결정될 수 있다. 가장 간단한 방법은 모든 유효한 측정에 대해 동일한 가중치, 예를 들어 $w_i(x) = 1$을 부여하는 것이다.23 하지만 더 정교한 시스템에서는 측정의 질을 고려하여 가중치를 차등적으로 부여한다. 예를 들어, 센서의 광선이 표면에 거의 수직으로 입사할 때 더 높은 가중치를 부여하고, 비스듬하게(at a glancing angle) 입사할 때는 낮은 가중치를 부여하여 측정의 신뢰도를 반영할 수 있다.27 또한, 센서의 깊이 값에 따른 노이즈 모델을 적용하여 거리가 멀수록 가중치를 낮추는 방식도 사용된다.

TSDF의 가중 평균 융합 방식은 그 자체로 강력한 노이즈 필터 역할을 한다. 여러 프레임에 걸쳐 측정된 값들을 평균화함으로써, 각 측정에 포함된 가우시안 분포 형태의 랜덤 노이즈가 효과적으로 상쇄되어 표면이 점차 매끄러워진다.18

그러나 실제 센서 데이터는 단순한 가우시안 노이즈 외에도 더 복잡하고 처리하기 어려운 오류들을 포함한다.

체계적 노이즈 및 이상치(Outliers): 깊이 센서는 특정 재질(예: 검은색, 반사체)에서 깊이 값을 측정하지 못해 생기는 구멍(holes), 간섭으로 인한 비정상적인 측정값(outliers), 그리고 센서 자체의 왜곡(distortion)과 같은 체계적인 오류를 포함한다.9 단순한 가중 평균 방식은 이러한 심각한 이상치에 취약하며, 잘못된 측정값이 재구성 결과에 그대로 반영되어 표면에 혹이나 잘못된 구조물을 만들 수 있다.21
과평활화(Over-smoothing): 노이즈 제거는 TSDF의 주요 장점이지만, 이 과정의 부작용으로 실제 표면이 가진 미세한 기하학적 디테일이 함께 사라지고 과도하게 밋밋한 표면이 생성되는 경향이 있다. 이는 특히 여러 시점에서 촬영된 데이터가 융합될 때 두드러진다.18
포즈 노이즈(Pose Noise): 융합 과정의 정확도는 카메라 포즈 추정의 정확도에 크게 의존한다. 포즈 추적에 오차가 발생하면(pose noise), 기하학적으로 일치하지 않는 데이터가 잘못된 위치에 융합되어 전체 재구성 결과가 흐릿해지거나 이중으로 보이는 등 심각한 품질 저하를 야기한다. 이는 깊이 측정 자체의 노이즈와는 근본적으로 다른 차원의 문제이다.26

전통적인 TSDF 융합 방식이 가진 한계들, 즉 최적의 파라미터를 수동으로 조정해야 하는 어려움, 비선형적이고 복잡한 센서 노이즈에 대한 처리 능력 부족, 그리고 얇은 구조물에서의 실패 등을 극복하기 위해 최근에는 딥러닝을 활용한 학습 기반 융합 기법들이 활발히 연구되고 있다.21

RoutedFusion: 이 연구는 2D 깊이 이미지 처리 네트워크와 3D TSDF 융합 네트워크를 결합한 독창적인 구조를 제안했다. 먼저 2D 네트워크가 입력된 깊이 이미지로부터 노이즈와 이상치를 보정하고 픽셀별 신뢰도를 예측하는 ‘깊이 라우팅(depth routing)’ 역할을 수행한다. 그 후, 3D 네트워크가 이 정제된 정보와 기존 TSDF 볼륨의 지역적 정보를 입력받아, 단순한 선형 평균이 아닌 비선형적인 TSDF 업데이트 값을 예측한다. 이 접근법을 통해, 특히 얇은 객체의 앞면과 뒷면에서 들어오는 상반된 정보가 서로를 파괴하는 문제를 효과적으로 완화할 수 있다.21
DFusion: RoutedFusion의 아이디어를 한 단계 더 발전시켜, 깊이 센서의 노이즈뿐만 아니라 카메라 포즈 추정 오류로 인해 발생하는 포즈 노이즈까지 함께 처리하는 것을 목표로 한다. 이 방법은 두 단계로 구성된다. 첫 번째 융합 모듈이 노이즈가 포함된 깊이와 포즈를 사용하여 초기 TSDF 볼륨을 생성하면, 두 번째 후처리 노이즈 제거 모듈이 이 볼륨 전체를 입력받아 3D U-Net과 같은 컨볼루션 신경망을 통해 3차원 공간 구조 정보를 직접 활용하여 노이즈를 제거한다.26

이러한 학습 기반 접근법들은 TSDF 융합 과정에서 ‘가중치’의 개념을 재정의하고 있다. 초기의 가중치가 단순히 측정 횟수를 세는 카운터였다면 23, 이후에는 관측 각도와 같은 휴리스틱을 반영하는 모델로 발전했다.27 그리고 이제 학습 기반 방법론에서는 가중치가 데이터 자체로부터 복잡한 오류 패턴을 학습하여 예측되는 다차원적인 ‘신뢰도’ 점수로 진화하고 있다. 이 진화는 TSDF 융합 분야 전체의 발전 궤적, 즉 단순하고 우아한 수학적 모델에서 출발하여 실제 세계 센서 데이터의 복잡성을 다루기 위한 데이터 주도적이고 강력한 학습 시스템으로 나아가는 과정을 압축적으로 보여준다.

TSDF 볼륨은 그 자체로는 직접 렌더링하거나 분석하기 어려운 암시적 표현이다. 이를 시각화하고 활용하기 위해서는 대부분의 경우 명시적인 삼각형 메시(mesh) 형태로 변환하는 과정이 필요하다. 이 변환을 수행하는 가장 표준적이고 널리 사용되는 알고리즘이 바로 Marching Cubes이다.

Marching Cubes 알고리즘은 1987년 Lorensen과 Cline에 의해 제안된 이후, 스칼라 필드(scalar field)로부터 등위면(isosurface)을 추출하는 고전적인 방법으로 자리 잡았다. TSDF 볼륨의 경우, 이 알고리즘은 TSDF 값이 0이 되는 지점, 즉 표면의 제로 레벨셋(zero level-set)을 찾아 삼각형 메시로 근사한다.10

알고리즘의 작동 원리는 다음과 같은 단계로 구성된다.

복셀 순회 (Voxel Traversal): 전체 TSDF 볼륨을 구성하는 3차원 그리드를 복셀(voxel) 단위로 하나씩 순회한다. 여기서 ‘복셀’은 그리드를 구성하는 8개의 인접한 꼭짓점(corner)으로 정의되는 정육면체 공간을 의미한다.
꼭짓점 값 분류 (Corner Classification): 현재 처리 중인 복셀의 8개 꼭짓점에서 각각의 TSDF 값을 읽어온다. 각 꼭짓점은 TSDF 값의 부호에 따라 표면의 안쪽(예: 음수) 또는 바깥쪽(예: 양수)으로 분류된다.35
복셀 인덱스 생성 (Voxel Indexing): 8개 꼭짓점의 분류 결과(안/밖)를 바탕으로 8비트의 이진 인덱스를 생성한다. 각 비트는 특정 꼭짓점의 상태를 나타낸다. 따라서 총 $2^8 = 256$가지의 가능한 상태 조합이 존재한다.34
위상 결정 (Topology Lookup): 미리 계산되어 저장된 룩업 테이블(lookup table)을 사용하여, 3단계에서 생성된 256가지 인덱스 각각에 대해 해당 복셀 내부에 생성될 삼각형들의 위상(topology)을 결정한다. 즉, 어떤 모서리(edge)들을 연결하여 삼각형을 만들어야 하는지에 대한 정보가 테이블에 저장되어 있다. 회전 및 반전 대칭성을 고려하면, 256가지 경우는 실제로는 15개의 고유한 위상 패턴으로 축약될 수 있다.35
정점 위치 계산 (Vertex Interpolation): 삼각형을 구성하는 정점(vertex)들은 항상 부호가 서로 다른 두 꼭짓점을 잇는 모서리 위 어딘가에 위치한다. 정점의 정확한 위치는 해당 모서리의 양 끝점(복셀의 꼭짓점)에서의 TSDF 값을 이용하여 선형 보간(linear interpolation)함으로써 계산된다. 즉, 두 꼭짓점의 TSDF 값이 $d_1$과 $d_2$일 때, 보간된 TSDF 값이 정확히 0이 되는 지점을 찾아 정점의 위치로 삼는다.34
메시 조립 (Mesh Assembly): 그리드 내의 모든 복셀에 대해 이 과정을 반복하여 생성된 작은 삼각형 조각들을 모두 이어 붙이면, 전체 3D 표면을 나타내는 하나의 연속적인 메시가 완성된다.

Marching Cubes는 매우 효과적이고 널리 쓰이지만, 몇 가지 내재적인 한계를 가지고 있다.

위상 모호성 (Topological Ambiguity): 256가지 케이스 중 일부는 삼각형을 연결하는 방식이 유일하게 결정되지 않아 위상적으로 모호한 상황을 야기할 수 있다. 예를 들어, 한 면의 대각선에 위치한 두 꼭짓점은 양수이고 다른 두 꼭짓점은 음수인 경우, 두 개의 분리된 삼각형을 만들지 아니면 연결된 삼각형 쌍을 만들지에 따라 메시의 연결성이 달라진다. 이 문제를 잘못 처리하면 최종 메시에 의도치 않은 구멍이 생길 수 있다. 이를 해결하기 위해 Asymptotic Decider와 같은 추가적인 테스트를 적용하거나 확장된 룩업 테이블을 사용해야 한다.
해상도 의존성 (Resolution Dependency): 생성되는 메시의 품질과 디테일은 전적으로 TSDF 볼륨의 복셀 해상도에 의해 결정된다. 볼륨의 해상도가 낮으면, 특히 곡면에서 계단 현상(aliasing 또는 jaggies)이 두드러지게 나타나는 각진 메시가 생성된다.19
얇은 구조 표현 실패: 이는 알고리즘 자체의 문제라기보다는 TSDF 표현의 한계에서 기인한다. 복셀 크기보다 얇은 구조물은 TSDF 볼륨에 제대로 표현되기 어렵고, 이로 인해 Marching Cubes를 적용해도 깨지거나 왜곡된 메시가 추출될 수 있다.19
미분 불가능성 (Non-differentiability): Marching Cubes 알고리즘의 가장 심각한 한계 중 하나는 미분이 불가능하다는 점이다. 룩업 테이블을 참조하여 이산적인 위상 결정을 내리는 과정은 연속적인 그래디언트 흐름을 차단한다. 이 특성은 종단간 학습(end-to-end learning)을 지향하는 현대 딥러닝 기반 3D 재구성 모델에 Marching Cubes를 직접 통합하는 것을 불가능하게 만든다. 즉, 신경망이 TSDF 볼륨을 출력하더라도, 이 볼륨으로부터 메시를 생성하는 Marching Cubes 단계를 거쳐 최종 메시의 품질에 대한 손실(loss)을 계산하고, 그 오차를 네트워크 가중치 업데이트에 역전파(backpropagation)할 수 없다. 이 때문에 연구자들은 메시 자체에 대한 손실 대신, TSDF 볼륨 자체에 대한 대리 손실(surrogate loss)을 사용하는 우회적인 방법을 사용해야만 했다.34

이 ‘미분 불가능한 다리’ 문제는 3D 재구성 연구의 방향에 지대한 영향을 미쳤다. 이는 기존의 파이프라인(TSDF 예측 –» Marching Cubes –» 메시)의 한계를 명확히 하고, 이 간극을 메우기 위한 새로운 연구 흐름을 만들어냈다. 한편에서는 Marching Cubes 자체를 미분 가능하게 만들려는 시도(예: Deep Marching Cubes)가 이루어졌고, 다른 한편에서는 이 다리를 완전히 우회하는 새로운 접근법이 폭발적으로 연구되었다. 대표적인 예가 바로 NeRF(Neural Radiance Fields)이다. NeRF는 TSDF-메시 변환 과정 없이, 볼륨 렌더링(volumetric rendering)이라는 미분 가능한 렌더링 기법을 통해 암시적 표현에서 직접 2D 이미지로 변환하고, 렌더링된 이미지와 실제 이미지 간의 광도 오차(photometric loss)를 통해 네트워크를 학습시킨다.36 이처럼 Marching Cubes의 미분 불가능성은 초기 학습 기반 재구성 방법들이 왜 볼륨 기반 손실 함수에 의존해야 했는지를 설명해주며, 동시에 신경망 렌더링과 같은 새로운 패러다임의 등장을 촉발한 핵심적인 기술적 난제였다.

Marching Cubes의 한계를 극복하고 더 높은 품질의 메시를 생성하기 위한 여러 개선된 기법들이 제안되었다.

Dual Marching Cubes: 복셀의 중심이 아닌 모서리(edge)에 정점을 생성하여, 특히 날카로운 특징(sharp features)을 더 잘 보존하는 메쉬를 생성하는 변형 알고리즘이다.
Deep Marching Cubes (DMC): 앞서 언급했듯이, Marching Cubes 알고리즘을 미분 가능한 형태로 재구성하여 심층 신경망에 통합한 선구적인 연구이다. DMC는 각 복셀에 대해 표면이 통과하는지 여부와 정점의 위치를 직접 예측하도록 네트워크를 학습시킨다. 이를 통해 3D 관측 데이터(예: 점 구름)로부터 직접적으로 표면 메시를 생성하는 종단간 학습을 가능하게 했다.34
Directional TSDF를 위한 수정된 Marching Cubes: Directional TSDF와 같이 하나의 복셀이 여러 방향의 표면 정보를 담고 있는 고급 표현 방식의 경우, 표준 Marching Cubes를 그대로 적용할 수 없다. 이를 위해 각 방향별 TSDF에 대해 독립적으로 Marching Cubes를 수행한 후, 그 결과들을 병합하고 후처리하여 얇은 구조물이나 복잡한 교차점에서 더 정확하고 일관된 메시를 추출하는 수정된 알고리즘이 필요하다.22

초기 KinectFusion 시스템은 실시간 3D 재구성의 가능성을 입증했지만, 고정된 크기의 정규 복셀 그리드를 사용함으로써 재구성할 수 있는 공간의 크기가 GPU 메모리에 의해 엄격하게 제한되는 명백한 한계를 가졌다. 이러한 한계를 극복하고 방 전체, 건물, 심지어 도시 규모의 대규모 환경(large-scale environments)을 재구성하려는 연구자들의 야망은 TSDF를 저장하고 관리하는 자료구조의 혁신을 이끌었다.

KinectFusion에서 사용된 정규 복셀 그리드(regular voxel grid) 방식은 다음과 같은 근본적인 문제점을 안고 있었다.

메모리 문제: 3차원 공간을 균일한 복셀로 나누어 표현하는 방식은 공간의 크기나 해상도에 따라 메모리 요구량이 세제곱($O(n^3)$)으로 폭발적으로 증가한다. 예를 들어, 해상도를 2배 높이면 필요한 메모리는 8배가 된다. 이로 인해 고해상도로 넓은 공간을 재구성하는 것은 실질적으로 불가능했다.2
계산 비효율성: 실제 환경에서 대부분의 공간은 비어있거나(empty space) 객체의 내부에 해당한다. 하지만 정규 그리드 방식은 표면이 존재하는 일부 영역뿐만 아니라 이러한 모든 영역의 복셀에 대해서도 메모리를 할당하고 매 프레임마다 업데이트 연산을 수행해야 하므로 심각한 계산적 낭비를 초래한다.16
초기 해결책: 이러한 문제를 해결하기 위한 초기 시도로 ‘슬라이딩 윈도우(sliding window)’ 또는 ‘이동 볼륨(moving volume)’ 방식이 제안되었다. Kintinuous와 같은 시스템에서는 카메라의 움직임을 따라 고정된 크기의 융합 볼륨을 함께 이동시킨다. 카메라가 볼륨의 경계를 벗어나면, 더 이상 보이지 않게 되는 영역의 복셀 데이터를 GPU에서 CPU로 옮기고 메시 형태로 압축하여 저장한 후, 해당 메모리 공간을 새로운 영역을 위해 재사용한다. 이 방식은 재구성 범위를 확장시켰지만, 한 번 CPU로 옮겨진 영역의 TSDF 정보는 손실되어 다시 업데이트하거나 기존 맵과 정합하는 데 한계가 있었다.16

대규모 재구성 문제에 대한 진정한 돌파구는 2013년 Nießner 등이 제안한 ‘실시간 대규모 3D 재구성을 위한 복셀 해싱(Real-time 3D reconstruction at scale using voxel hashing)’ 연구에서 마련되었다.16

핵심 아이디어: 전체 3D 공간을 물리적으로 연속된 거대한 배열로 할당하는 대신, 공간을 논리적으로 작은 복셀 블록(voxel block, 예: $8 \times 8 \times 8$ 복셀 크기) 단위로 나눈다. 그리고 실제 표면이 관측된 위치에 해당하는 복셀 블록들만 필요에 따라 동적으로 메모리에 할당하고, 이를 해시 테이블(hash table)을 이용해 관리한다.16
작동 방식:
1. 공간 분할 및 인덱싱: 무한한 3D 공간을 복셀 블록의 그리드로 간주하고, 각 블록에 정수 좌표 $(bx, by, bz)$를 부여한다.
2. 해시 함수: 공간적 해시 함수를 사용하여 블록의 3차원 좌표를 1차원의 해시 테이블 주소로 매핑한다. 해시 충돌(collision)을 처리하기 위해 각 해시 버킷(bucket)은 연결 리스트(linked list) 형태의 충돌 목록을 가질 수 있다.
3. 동적 할당 및 접근: 새로운 깊이 데이터가 입력되면, 해당 데이터가 포함되는 각 복셀에 대해 소속 블록의 좌표를 계산한다. 이 좌표를 해시하여 해시 테이블에서 해당 블록이 이미 할당되었는지 확인한다. 만약 블록이 존재하지 않으면, 새로운 메모리 공간을 동적으로 할당하여 블록을 생성하고 해시 테이블에 등록한다. 이미 블록이 존재한다면, 해당 블록의 메모리 주소를 가져와 TSDF 값을 업데이트한다.33
장점:
- 메모리 효율성: 표면이 존재하는 희소한(sparse) 영역에 대해서만 메모리를 할당하므로, 재구성하는 공간의 크기와 메모리 사용량이 비례하지 않는다. 이로써 사실상 무한한 크기의 환경을 재구성하는 것이 가능해졌다.16
- 빠른 접근 속도: 잘 설계된 해시 테이블은 평균적으로 거의 상수 시간($O(1)$)에 원하는 복셀 블록에 접근할 수 있게 해준다.16
- GPU 친화적 구조: 복잡한 계층 구조가 없어 데이터 접근 패턴이 비교적 단순하므로 GPU에서의 대규모 병렬 처리에 매우 적합하다.16

복셀 해싱 기법은 InfiniTAM, VDBFusion 등 수많은 현대적 TSDF 기반 SLAM 및 3D 재구성 시스템의 핵심 기반 기술로 채택되었으며, 대규모 실시간 재구성의 표준적인 해결책으로 자리 잡았다.39

복셀 해싱이 ‘어디에’ 데이터를 저장할 것인가의 문제를 해결했다면, 옥트리(Octree) 기반 접근법은 ‘어떻게’ 더 효율적으로 공간을 표현하고 다양한 해상도를 다룰 것인가에 대한 해답을 제시한다.

핵심 아이디어: 옥트리는 3차원 공간을 재귀적으로 8개의 정육면체 자식 노드(octant)로 분할하는 계층적 자료구조이다. 이 구조를 사용하여 TSDF 볼륨을 표현하면, 표면이 없는 균일한 공간(완전히 비어있거나 완전히 내부인 공간)은 상위 레벨의 큰 노드 하나로 묶어서 표현하고, 표면 근처의 복잡한 기하학적 디테일이 있는 영역은 트리의 더 깊은 레벨까지 분할하여 작은 노드들로 정밀하게 표현할 수 있다.25
장점:
- 메모리 압축: 복셀 해싱과 마찬가지로 빈 공간을 효율적으로 압축하여 메모리 사용량을 크게 줄인다.2
- 적응형 및 다중 해상도(Adaptive/Multi-Resolution): 옥트리의 가장 큰 장점은 자연스럽게 다중 해상도를 지원한다는 점이다. 예를 들어, 카메라에서 멀리 떨어진 물체는 낮은 해상도(옥트리의 상위 레벨)로 융합하고, 가까운 물체는 높은 해상도(하위 레벨)로 융합하여 계산 효율성과 재구성 품질 사이의 균형을 동적으로 조절할 수 있다.19
- 효율적인 공간 탐색: 레이캐스팅과 같은 공간 질의(spatial query) 시, 광선이 통과하는 빈 공간을 나타내는 큰 노드 전체를 한 번에 건너뛸 수 있어 탐색 속도를 크게 향상시킬 수 있다. 이는 특히 경로 계획과 같은 로보틱스 응용에 유리하다.43
단점 및 과제: 복셀 해싱에 비해 자료구조 자체가 더 복잡하고, 노드의 분할 및 병합 과정에서 포인터 기반의 트리 구조를 동적으로 수정해야 하므로 GPU에서의 병렬 구현이 더 까다롭고 동시성(concurrency) 제어가 어려울 수 있다.38
하이브리드 접근법: 이러한 단점을 보완하기 위해, 옥트리를 순수한 공간 분할 도구가 아닌 공간 인덱싱 구조로 활용하는 하이브리드 방식도 널리 사용된다. 이 방식에서는 옥트리의 리프 노드(leaf node)가 단일 복셀이 아닌, 복셀 해싱에서 사용하는 것과 같은 작은 복셀 블록을 가리키도록 한다. 이를 통해 옥트리의 계층적 탐색 능력과 복셀 블록의 데이터 지역성(data locality) 및 병렬 처리 용이성의 장점을 결합할 수 있다.43

이러한 자료구조의 발전 과정은 3D 재구성 분야의 목표가 어떻게 진화해왔는지를 명확히 보여준다. KinectFusion의 ‘정규 그리드’는 ‘데스크톱 규모에서 실시간 재구성이 가능한가?’라는 초기 질문에 대한 답이었다. ‘복셀 해싱’은 ‘방이나 건물 전체를 실시간으로 재구성할 수 있는가?’라는 다음 단계의 야망을 실현시켰다. 그리고 ‘옥트리’는 ‘어떻게 하면 더 지능적이고 효율적으로, 그리고 다양한 목적(예: 계획)에 맞게 세계를 표현할 수 있는가?’라는 더 성숙한 질문에 대한 해답을 제시하고 있다.

전통적인 TSDF 기반 재구성 시스템들은 ‘정적 세계 가정(static world assumption)’, 즉 장면 내의 모든 것이 움직이지 않는다는 가정 하에 설계되었다. 따라서 사람이 걸어 다니거나 물체가 움직이는 동적 환경(dynamic environments)에서는 움직이는 객체의 궤적을 따라 재구성 결과가 흐려지거나 깨지는 심각한 문제가 발생한다.46

TSDF++: 이 문제를 해결하기 위해 제안된 새로운 TSDF 공식으로, 단일 3D 볼륨 내에서 여러 개의 움직이는 객체를 배경과 함께 동시에 추적하고 재구성하는 것을 목표로 한다. TSDF++의 핵심 아이디어는 각 복셀이 단일 TSDF 값이 아닌, 여러 객체에 대한 (객체 ID, TSDF 값, 가중치) 쌍의 리스트를 저장할 수 있도록 표현을 확장하는 것이다. 이를 통해 한 동적 객체가 다른 객체나 배경을 일시적으로 가리는 폐색(occlusion) 상황에서도 각 표면 정보를 손상시키지 않고 독립적으로 유지하고 업데이트할 수 있다.46
기타 접근법:
- 객체 중심 모델링(Object-centric Modeling): 동적 환경을 다루는 또 다른 접근법은, 배경을 위한 하나의 전역 TSDF 볼륨과 함께, 탐지된 각 동적 객체에 대해 별도의 독립적인 TSDF 볼륨을 할당하고 관리하는 것이다. 시스템은 각 객체의 움직임을 개별적으로 추적하고, 전체 장면은 여러 개의 TSDF 볼륨과 그들의 상대적인 포즈(pose)의 집합으로 표현된다.46
- 장면 변화 감지(Scene Change Detection): 특정 시간 간격을 두고 재구성된 두 개의 TSDF 볼륨을 직접 비교하여 값의 차이가 큰 영역을 찾아내는 방식으로 동적 요소를 탐지할 수 있다. 이렇게 탐지된 변화 영역을 군집화(clustering)하여 개별 동적 객체로 분할하고 추적하는 연구도 수행되었다.47

이러한 연구들은 TSDF를 정적인 장면의 기하학적 모델링 도구에서, 객체들이 상호작용하는 복잡하고 동적인 세계를 이해하고 모델링하는 표현 방식으로 발전시키려는 노력을 보여준다.

TSDF는 단순히 3D 모델을 생성하는 것을 넘어, 로봇이 미지의 환경에서 자신의 위치를 파악하고 동시에 지도를 작성하는 SLAM(Simultaneous Localization and Mapping)과 다양한 로보틱스 응용 분야에서 핵심적인 역할을 수행한다. TSDF가 제공하는 풍부한 기하학적 정보는 로봇의 인식, 계획, 행동 능력을 크게 향상시킨다.

SLAM은 로보틱스의 근본적인 문제 중 하나로, TSDF는 특히 밀집(dense) SLAM 시스템에서 중요한 지도 표현 방식으로 사용된다.

전통적인 2D 및 3D SLAM 시스템에서 널리 사용되던 지도 표현 방식은 점유 격자 지도(occupancy grid map)이다. 이는 공간을 그리드로 나누고 각 셀이 장애물에 의해 ‘점유(occupied)’되었을 확률을 저장한다.3 점유 격자 지도는 확률적이고 메모리 효율적이지만, TSDF에 비해 몇 가지 단점을 가진다.

정밀도: 점유 격자 지도의 정확도는 그리드 해상도에 의해 제한된다. 표면은 단순히 점유된 셀의 집합으로 표현될 뿐, 셀 내부에서의 정확한 위치 정보는 알 수 없다. 반면, TSDF는 보간을 통해 복셀보다 훨씬 정밀한 서브픽셀(sub-pixel) 수준의 표면 위치를 표현할 수 있다.3
위치 추정의 강건성: SLAM의 위치 추정(localization) 단계에서는 현재 센서 측정값(예: 라이다 스캔)을 기존 지도에 정합(scan matching)한다. 점유 격자 지도 기반의 정합은 이산적인 값에 의존하는 반면, TSDF는 표면까지의 연속적인 거리 값과 그래디언트(표면 법선) 정보를 제공한다. 이 그래디언트 정보는 최적화 과정에서 더 넓은 수렴 반경(basin of convergence)을 제공하여, 초기 추정 오차가 크더라도 올바른 위치로 수렴할 가능성을 높여준다. 이는 위치 추정의 강건성을 크게 향상시킨다.3
노이즈 처리: 점유 격자 지도는 센서의 가우시안 노이즈에 민감하여 지도에 ‘고스팅(ghosting)’ 현상이나 불필요한 아티팩트를 남길 수 있다. TSDF는 여러 측정값을 가중 평균하는 내재적인 필터링 메커니즘을 통해 이러한 노이즈를 효과적으로 줄이고 더 깨끗한 지도를 생성한다.48

이러한 장점들로 인해, 특히 고품질의 3D 지도가 요구되는 응용에서는 점유 격자 지도 대신 TSDF를 사용하는 SLAM 시스템(예: HATSDF-SLAM, FeatSense)이 활발히 연구되고 있다.3

TSDF는 밀집 SLAM(Dense SLAM)의 핵심 구성 요소이다. 밀집 SLAM은 희소한 특징점만을 사용하는 희소 SLAM(Sparse SLAM)과 달리, 센서가 제공하는 모든 픽셀 정보를 활용하여 주변 환경의 조밀하고 상세한 3D 모델을 구축한다. KinectFusion이 바로 대표적인 밀집 SLAM 시스템이며, 이후 복셀 해싱이나 옥트리를 적용한 대규모 밀집 SLAM 시스템들이 개발되었다.7 이러한 시스템에서 TSDF는 두 가지 핵심적인 역할을 동시에 수행한다.

지도 표현(Mapping): 연속적인 깊이 프레임을 융합하여 환경의 전역적인 3D 모델을 점진적으로 구축한다.
위치 추정(Tracking): 새로 들어온 프레임을 현재까지 구축된 TSDF 모델에 정합(frame-to-model tracking)하여 카메라의 정밀한 포즈를 추정한다.

이처럼 추정과 지도 작성이 긴밀하게 연결된 구조는 매우 정확하고 드리프트(drift)가 적은 궤적 추정을 가능하게 한다.

TSDF로 구축된 고품질의 3D 모델은 다양한 로보틱스 응용의 기반이 된다.

경로 계획 및 충돌 회피 (Path Planning & Collision Avoidance): 로봇이 환경 내에서 안전하게 이동하기 위해서는 장애물과의 충돌을 피해야 한다. TSDF는 특정 지점이 장애물의 내부에 있는지, 외부에 있는지, 또는 표면으로부터 얼마나 떨어져 있는지를 즉시 알려준다. 로봇의 현재 또는 미래 위치에 해당하는 복셀의 TSDF 값을 확인하는 것만으로 매우 빠르고 효율적인 충돌 감지가 가능하다.1 특히, SDF의 그래디언트는 가장 가까운 장애물로부터 멀어지는 방향을 알려주므로, 로봇의 궤적을 최적화하는 데 유용한 정보를 제공한다.9
객체 조작 (Object Manipulation): 로봇 팔이 물체를 집거나 조작하기 위해서는 물체의 정확한 3차원 형태, 위치, 그리고 방향을 알아야 한다. TSDF는 복잡한 형태의 객체에 대한 정밀한 3D 모델을 제공하여 로봇이 안정적인 파지점(grasping point)을 계획하고 정교한 조작 작업을 수행할 수 있도록 돕는다.1
장면 이해 (Scene Understanding): TSDF 모델은 단순한 기하학적 표현을 넘어, 장면을 의미론적으로 이해하는 데 사용될 수 있다. 예를 들어, 재구성된 3D 모델로부터 평면, 모서리, 원기둥과 같은 기하학적 원시형(primitive)을 추출하거나, 딥러닝 모델과 결합하여 책상, 의자, 사람과 같은 객체를 인식하고 분할(segmentation)하는 연구가 진행되고 있다.19
증강 현실 및 시뮬레이션: TSDF로 재구성된 실제 환경 모델은 증강 현실(AR)에서 가상 객체와 실제 객체 간의 사실적인 상호작용(예: 가상 공이 실제 바닥에 닿아 튀는 것)을 구현하는 기반이 된다. 또한, 이 모델을 시뮬레이션 환경으로 가져와 로봇의 행동을 미리 테스트하고 학습시키는 데 활용할 수 있다.7

요약하자면, TSDF는 로봇에게 주변 세계에 대한 상세하고 실행 가능한(actionable) 3차원 지식을 제공함으로써, 단순한 위치 인식을 넘어 복잡한 환경과 상호작용할 수 있는 능력을 부여하는 핵심 기술이라고 할 수 있다.

TSDF의 기술적 가치와 위치를 명확히 이해하기 위해서는, 이를 다른 주요 3D 표현 방식들과의 비교를 통해 장단점을 분석하는 것이 필수적이다. 본 장에서는 TSDF를 점 구름, 메시, 점유 격자, 그리고 최신 신경망 기반 표현 방식인 NeRF 및 가우시안 스플래팅과 비교 분석한다.

점 구름은 3D 공간상의 점들의 집합으로, 각 점은 (x, y, z) 좌표와 선택적으로 색상(RGB)이나 법선(normal) 정보를 가진다. 이는 깊이 센서로부터 얻어지는 원시 데이터(raw data)와 가장 가까운 형태이다.

장점: 구조가 매우 단순하고 유연하며, 데이터를 획득하고 저장하기 쉽다. 부분적인 데이터를 표현하는 데 제약이 없다.
단점: 점들은 서로 연결되어 있지 않으므로 표면의 위상(topology) 정보가 전혀 없다. 따라서 점들 사이의 빈 공간을 추론하거나 표면을 렌더링하기 어렵다. 또한, 점의 밀도가 불균일하고 노이즈에 취약하며, 특정 지점이 객체의 내부인지 외부인지 판별할 수 없다.51
TSDF와의 비교: TSDF는 개별 측정값들을 융합하여 노이즈를 제거하고 연속적인 표면을 생성하며, 내/외부 정보를 명확히 제공한다는 점에서 단순한 점들의 집합인 점 구름보다 훨씬 고수준의 표현 방식이다.

메시는 정점, 모서리, 면으로 구성되어 표면을 명시적으로 정의한다. 이는 컴퓨터 그래픽스에서 렌더링을 위한 표준적인 표현 방식이다.

장점: 표면의 위상 정보가 명시적으로 주어지므로 고품질의 렌더링이 효율적으로 가능하다. 기하학적 디테일을 정밀하게 표현할 수 있다.
단점: 위상 변경이 매우 복잡하여 동적인 변형이나 불리언 연산에 적합하지 않다. 센서 데이터로부터 직접 메시를 생성하고 점진적으로 업데이트하는 과정이 어렵고, 데이터에 구멍(hole)이 있거나 위상이 복잡한 경우(non-watertight) 처리가 까다롭다.5
TSDF와의 비교: TSDF는 위상 변화에 강건하고 여러 시점의 데이터를 쉽게 융합할 수 있는 암시적 표현인 반면, 메시는 고정된 위상을 가진 명시적 표현이다. 일반적으로 TSDF를 먼저 구축한 후, Marching Cubes와 같은 알고리즘을 통해 최종적으로 메시를 추출하는 파이프라인이 널리 사용된다. 즉, 둘은 상호 보완적인 관계에 있다.

점유 격자는 공간을 복셀 그리드로 나누고 각 복셀이 장애물에 의해 점유될 확률을 저장하는 방식이다.

장점: 확률적 모델을 통해 센서의 불확실성을 자연스럽게 다룰 수 있으며, 특히 비어있는 공간(free space)을 명시적으로 표현하므로 로봇의 경로 계획에 널리 사용된다.17
단점: 기하학적 정밀도가 그리드 해상도에 의해 제한되며, 매끄러운 표면을 표현하기 어렵다. 생성된 지도는 보통 각진 형태를 띤다.3
TSDF와의 비교: TSDF는 서브픽셀 정밀도로 매끄러운 표면을 재구성하는 데 중점을 두는 반면, 점유 격자는 ‘점유 여부’라는 이진적인 정보에 집중한다. TSDF가 ‘어떻게 생겼는가’에 대한 답을 준다면, 점유 격자는 ‘갈 수 있는가 없는가’에 대한 답을 주는 데 더 특화되어 있다. 최근에는 두 표현의 장점을 결합하려는 시도도 있다 (예: TSDF에서 ESDF(Euclidean Signed Distance Field) 생성).17

최근 딥러닝의 발전은 3D 표현 방식에도 새로운 패러다임을 제시했다. NeRF(Neural Radiance Fields)와 3D 가우시안 스플래팅(Gaussian Splatting)이 대표적이다.

NeRF는 3D 장면을 연속적인 5D 함수(3D 위치 + 2D 시선 방향)로 표현하는 심층 신경망이다. 이 네트워크는 특정 위치에서 특정 방향으로 방출되는 빛의 색상(RGB)과 밀도(density)를 예측하도록 학습된다. 볼륨 렌더링 기법을 통해 이 신경망으로부터 매우 사실적인 새로운 시점의 이미지를 생성할 수 있다.36

장점: 전례 없는 수준의 사실적인 이미지 렌더링(photorealistic rendering)이 가능하다. 복잡한 조명 효과, 반사, 투명도까지 표현할 수 있으며, 연속적인 함수 표현으로 인해 이론적으로 무한한 해상도를 가진다.36
단점: 학습 과정이 매우 오래 걸리고 계산 비용이 높다. 실시간 융합이나 업데이트가 어렵다. 기하학적 표면을 직접 표현하는 것이 아니므로, 메시를 추출하는 과정이 추가적으로 필요하며 그 품질이 항상 보장되지는 않는다.37
TSDF와의 비교: TSDF는 기하학적 정확성과 실시간 융합에 초점을 맞춘 표현 방식인 반면, NeRF는 시점 합성을 통한 시각적 사실성에 초점을 맞춘다. TSDF가 로보틱스의 ‘인식’과 ‘계획’에 더 가깝다면, NeRF는 그래픽스의 ‘렌더링’과 ‘가상현실’에 더 가깝다. 최근에는 NeRF의 아이디어를 SDF 표현과 결합하여(예: Neural SDF), 사실적인 렌더링과 정밀한 기하학을 동시에 달성하려는 연구가 활발하다.36

가우시안 스플래팅은 장면을 수많은 3D 가우시안(Gaussians)의 집합으로 표현하는 새로운 방식이다. 각 가우시안은 위치, 모양(공분산), 색상, 불투명도 등의 파라미터를 가지며, 이를 미분 가능한 렌더링 파이프라인을 통해 실시간으로 렌더링할 수 있다.37

장점: NeRF 수준의 높은 시각적 품질을 유지하면서도 학습 속도가 훨씬 빠르고 실시간 렌더링이 가능하다.
단점: NeRF와 마찬가지로 명시적인 표면 정보가 없어 메시 추출이 어렵고, 추출된 메시의 품질이 기존 방식보다 떨어지는 경향이 있다.37
TSDF와의 비교: 가우시안 스플래팅은 NeRF의 단점이었던 속도 문제를 해결하며 실시간 렌더링을 가능하게 했지만, 여전히 기하학적 표현보다는 시각적 표현에 중점을 둔다. TSDF에서 메시를 추출하는 것은 표준화된 과정인 반면, 가우시안으로부터 고품질의 메시를 얻는 것은 아직 연구가 진행 중인 분야이다.

아래 표는 각 3D 표현 방식의 주요 특징을 요약하여 비교한 것이다.

표현 방식	자료 구조	메모리 효율성	위상 정보	표면 품질	실시간 융합	주요 장점	주요 단점
TSDF	3D 복셀 그리드	낮음 (Dense) ~ 중간 (Sparse)	암시적	부드러움 (과평활화 가능)	용이 (GPU)	노이즈 강건성, 실시간 융합	메모리, 얇은 구조 표현 실패
점 구름	비순서 점 집합	높음	없음	이산적	용이	단순성, 유연성	위상 부재, 노이즈 민감성
메시	정점/모서리/면	중간 (표면만 저장)	명시적	정밀함	어려움	렌더링 효율성, 정밀도	위상 변경 어려움, 융합 복잡
점유 격자	3D 복셀 그리드	중간	없음	각짐, 불분명	용이	확률적 빈 공간 표현	낮은 기하학적 정밀도
NeRF/가우시안	신경망 가중치	매우 높음	암시적/없음	매우 사실적	어려움 (학습 필요)	시점 합성 품질, 복잡한 광학 표현	느린 학습/추론, 메시 추출 어려움

이 비교를 통해 TSDF는 실시간 센서 데이터로부터 강건하게 기하학적 표면을 재구성해야 하는 로보틱스 및 상호작용적 응용 분야에서 명확한 강점을 가지는, 매우 균형 잡힌 표현 방식임을 알 수 있다. 비록 최신 신경망 기반 방법들이 시각적 품질에서 압도적인 성능을 보이지만, 실시간 융합, 명확한 기하학적 정의, 그리고 다른 로보틱스 파이프라인과의 쉬운 통합 측면에서 TSDF는 여전히 강력하고 실용적인 선택지로 남아있다.

TSDF는 지난 10여 년간 3D 재구성 분야의 발전을 이끌어온 핵심 기술로서, 그 기술적 의의와 한계는 명확하다. 본 장에서는 TSDF의 장단점을 종합적으로 분석하고, 이를 바탕으로 미래 기술 동향 속에서 TSDF가 나아갈 방향을 전망한다.

TSDF의 주요 장점과 단점, 그리고 각 단점을 완화하기 위해 개발된 기술들은 다음 표와 같이 요약될 수 있다.

구분	항목	상세 설명	관련 기법 / 완화 전략
장점	노이즈 강건성 (Noise Robustness)	여러 프레임의 깊이 측정값을 가중 평균하여 센서의 랜덤 노이즈를 효과적으로 억제하고, 매끄럽고 일관된 표면을 생성한다.1	-
장점	효율적인 융합 및 추적 (Efficient Fusion & Tracking)	구조가 단순하고 데이터 접근이 지역적이어서 GPU를 이용한 대규모 병렬 처리에 매우 적합하다. 이를 통해 실시간 프레임-대-모델 융합 및 추적이 가능하다.7	-
장점	암시적 표현의 이점 (Benefits of Implicit Representation)	내/외부 판별이 용이하여 충돌 감지에 효율적이며, 위상 변화에 강건하여 복잡한 장면도 자연스럽게 처리할 수 있다.5	-
장점	완성도 높은 생태계 (Mature Ecosystem)	KinectFusion 이후 수많은 오픈소스 구현체(Open3D, InfiniTAM 등)와 연구가 축적되어 있어 접근성이 높고 안정적이다.32	-
단점	높은 메모리 사용량 (High Memory Usage)	기본 정규 복셀 그리드 방식은 빈 공간까지 모두 저장하여 대규모 환경 재구성에 부적합하다.2	완화 전략: 복셀 해싱(Voxel Hashing) 16, 옥트리(Octrees).42
단점	얇은 구조물 표현 실패 (Failure on Thin Structures)	앞면과 뒷면의 SDF 값이 서로 간섭하여 표면이 두꺼워지거나 소실되는 ‘두꺼워짐 현상(thickening effect)’이 발생한다.19	완화 전략: Directional TSDF 27, 학습 기반 융합 (RoutedFusion).21
단점	과평활화 (Over-smoothing)	노이즈 제거를 위한 평균화 과정에서 표면의 미세한 기하학적 디테일이 함께 손실되는 경향이 있다.18	완화 전략: 광도 일관성을 이용한 정제(Photometric Refinement) 18, 학습 기반 융합.21
단점	정적 환경 가정 (Static World Assumption)	움직이는 객체가 있는 동적 환경에서는 재구성 결과가 손상되어 잔상이나 왜곡이 발생한다.46	완화 전략: TSDF++ 46, 객체 중심 모델링, 장면 변화 감지.47
단점	해상도와 범위의 트레이드오프 (Resolution vs. Scale Trade-off)	정규 그리드에서는 높은 해상도를 유지하면서 넓은 범위를 다루기 어렵다. 복셀 크기는 고정되어 있다.19	완화 전략: 옥트리 기반 적응형 해상도 44, 계층적 해싱.18

최근 몇 년간 NeRF를 필두로 한 신경망 기반 3D 표현(Neural Representations)이 시각적 사실성 측면에서 괄목할 만한 성과를 거두며 큰 주목을 받고 있다. 이러한 기술적 변화 속에서 TSDF의 미래는 어디를 향하고 있는가? TSDF는 구시대의 유물로 사라질 것인가, 아니면 새로운 패러다임과 융합하여 계속해서 발전할 것인가?

NeRF와 같은 방법들이 놀라운 렌더링 품질을 보여주지만, 이들은 본질적으로 ‘시점 합성’을 위한 표현 방식이다. 반면, TSDF는 ‘기하학’을 위한 표현 방식이다. 로보틱스 응용, 특히 충돌 회피, 경로 계획, 객체 조작 등은 시각적 사실성보다 빠르고 정확한 기하학적 정보(거리, 내/외부, 표면 법선 등)를 더 중요하게 요구한다. NeRF로부터 이러한 정보를 실시간으로 추출하는 것은 여전히 어려운 과제이다. 따라서, 실시간 상호작용과 물리적 추론이 필수적인 분야에서 TSDF의 직접적인 기하학적 표현 능력은 당분간 대체되기 어려운 고유한 가치를 지닐 것이다.

TSDF의 미래는 신경망과의 대립이 아닌 융합에 있을 가능성이 높다. 이미 여러 연구에서 두 패러다임의 장점을 결합하려는 시도가 나타나고 있다.

신경망을 이용한 TSDF 개선: DFusion이나 RoutedFusion처럼, 전통적인 TSDF 융합 파이프라인의 일부(예: 노이즈 모델링, 업데이트 규칙)를 신경망으로 대체하여 성능을 극대화하는 접근법이다. 이는 TSDF의 강건성과 실시간성은 유지하면서, 학습을 통해 기존 방식의 한계를 극복하는 실용적인 방향이다.21
TSDF를 활용한 신경망 학습 가속화: NeRF와 같은 신경망 모델은 학습 시 공간 전체를 균일하게 샘플링해야 하므로 매우 비효율적이다. 이 문제를 해결하기 위해, 먼저 전통적인 방식으로 빠르고 가볍게 TSDF 볼륨을 구축한 후, 이 볼륨을 가이드로 사용하여 표면 근처의 중요한 영역에만 샘플링을 집중시키는 연구(TSDF-Sampling)가 제안되었다. 이는 TSDF를 신경망 학습을 위한 ‘사전 정보(prior)’ 또는 ‘가이드’로 활용하여 학습 속도와 효율성을 획기적으로 높이는 접근법이다.54
하이브리드 표현 (Neural SDF): 장면을 표현하는 신경망이 색상과 밀도가 아닌 SDF 값을 직접 예측하도록 하는 방식이다(예: NGLOD, Gradient-SDF).11 이는 NeRF의 연속적이고 미분 가능한 표현 능력과 SDF의 강력한 기하학적 속성을 결합한 것이다. 이를 통해 고품질의 렌더링과 정밀한 표면 메시 추출을 동시에 달성할 수 있으며, 이는 두 세계의 장점을 모두 취하는 가장 유망한 미래 방향 중 하나로 여겨진다.

복셀 해싱과 옥트리가 대규모 정적 환경 재구성의 문을 열었다면, TSDF++와 같은 연구는 동적 환경으로의 확장을 시도했다. 미래에는 더 복잡한 다중 객체, 다중 로봇 시나리오에서 실시간으로 환경과 상호작용하며 지도를 생성하고 업데이트하는 기술이 더욱 중요해질 것이다.4 이를 위해 TSDF는 시맨틱 정보(semantic information, 예: ‘이것은 움직이는 사람이다’)와 결합되어, 단순한 기하학적 지도를 넘어 ‘의미론적 동적 지도(semantic dynamic map)’로 발전해 나갈 것으로 예상된다.

본 보고서는 3차원 재구성 및 로보틱스 분야의 핵심 기술인 Truncated Signed Distance Field (TSDF)에 대해 심층적으로 고찰하였다. TSDF는 암시적 표면 표현의 일종인 부호 거리 필드(SDF)를 현실적인 센서 데이터와 계산 자원에 맞게 변형한 실용적인 표현 방식으로, 표면 근처의 거리 정보만을 절단하여 저장함으로써 효율성과 강건성을 동시에 확보하였다.

KinectFusion의 등장을 기점으로, TSDF는 저가형 깊이 센서와 GPU 병렬 처리 기술에 힘입어 실시간 3D 재구성을 대중화하는 데 결정적인 역할을 수행했다. 가중 평균 기반의 점진적 융합 메커니즘은 센서 노이즈를 효과적으로 억제하고 일관된 3D 모델을 구축하는 강력한 프레임워크를 제공했으며, Marching Cubes 알고리즘을 통해 암시적 볼륨에서 명시적 메시를 추출하는 표준 파이프라인을 정립했다.

초기 TSDF가 가졌던 정규 복셀 그리드의 메모리 및 확장성 한계는 복셀 해싱과 옥트리라는 혁신적인 자료구조의 개발로 이어져, 데스크톱 규모를 넘어 방, 건물과 같은 대규모 환경의 재구성을 가능하게 했다. 또한, 정적 세계 가정을 극복하기 위한 TSDF++와 같은 연구들은 동적인 실제 세계를 모델링하려는 시도를 통해 TSDF의 표현력을 한 단계 더 확장시켰다.

오늘날 NeRF와 같은 신경망 기반 표현 방식이 시각적 사실성에서 새로운 기준을 제시하고 있지만, TSDF는 여전히 실시간 성능, 명확한 기하학적 정보 제공, 그리고 로보틱스 응용과의 긴밀한 통합 능력 측면에서 강력한 경쟁력을 유지하고 있다. 미래의 TSDF는 독립적인 기술로 머무르기보다, 신경망과의 융합을 통해 더욱 발전할 것으로 전망된다. 신경망이 TSDF 융합 과정의 성능을 향상시키고, 역으로 TSDF가 신경망 학습의 효율성을 높이는 상호 보완적인 관계가 형성되고 있다.

결론적으로, TSDF는 지난 10년간 3D 컴퓨터 비전의 발전을 견인해 온 근간 기술이며, 그 기본 원리와 이를 극복하기 위한 노력의 역사는 현재 진행형인 3D 인식 기술 연구에 중요한 통찰을 제공한다. 새로운 패러다임의 등장 속에서도 TSDF는 기하학적 이해의 핵심 도구로서 그 가치를 유지하며, 미래 기술과의 융합을 통해 계속해서 진화해 나갈 것이다.

Truncated Signed Distance Fields Applied To Robotics - DiVA portal, accessed July 31, 2025, https://www.diva-portal.org/smash/get/diva2:1136113/FULLTEXT01.pdf
RGBTSDF: An Efficient and Simple Method for Color Truncated Signed Distance Field (TSDF) Volume Fusion Based on RGB-D Images - MDPI, accessed July 31, 2025, https://www.mdpi.com/2072-4292/16/17/3188
Large Scale 2D Laser SLAM using Truncated Signed Distance Functions - TU Darmstadt, accessed July 31, 2025, https://www.sim.informatik.tu-darmstadt.de/publ/download/2019_daun_ssrr.pdf
Overview of Multi-Robot Collaborative SLAM from the Perspective of Data Fusion - MDPI, accessed July 31, 2025, https://www.mdpi.com/2075-1702/11/6/653
Implicit surface a.k.a (signed) distance field: definition - Rodolphe …, accessed July 31, 2025, https://rodolphe-vaillant.fr/entry/86/implicit-surface-aka-signed-distance-field-definition
arXiv:1505.05459v1 [cs.CV] 20 May 2015, accessed July 31, 2025, http://arxiv.org/pdf/1505.05459
(PDF) KinectFusion: Real-time dynamic 3D surface reconstruction and interaction, accessed July 31, 2025, https://www.researchgate.net/publication/220721971_KinectFusion_Real-time_dynamic_3D_surface_reconstruction_and_interaction
CSE 576 KinectFusion: Real-Time Dense Surface Mapping and Tracking - Washington, accessed July 31, 2025, https://courses.cs.washington.edu/courses/cse576/13sp/lectures/ISMAR_lecture.pdf
KinectFusion: Real-Time Dense Surface Mapping and Tracking - Microsoft, accessed July 31, 2025, https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/ismar2011.pdf
Signed Distance Function Representation, Tracking, and Mapping - Washington, accessed July 31, 2025, https://courses.cs.washington.edu/courses/cse571/16au/slides/10-sdf.pdf
Gradient-SDF: A Semi-Implicit Surface Representation for 3D Reconstruction - CVF Open Access, accessed July 31, 2025, https://openaccess.thecvf.com/content/CVPR2022/papers/Sommer_Gradient-SDF_A_Semi-Implicit_Surface_Representation_for_3D_Reconstruction_CVPR_2022_paper.pdf
Signed Distance (Sdf.m) - SorotokiCode - GitHub Pages, accessed July 31, 2025, https://bjcaasenbrood.github.io/SorotokiCode/sdf/sdf/

Truncated Signed Distance Function

by Simsangcheol - Medium, accessed July 31, 2025, https://medium.com/@sim30217/truncated-signed-distance-function-f765a0f1d432

Signed distance function - Wikipedia, accessed July 31, 2025, https://en.wikipedia.org/wiki/Signed_distance_function
A Scale-Adaptive Time-Efficient Depth Map Fusion Algorithm - preprints from Optica Open, accessed July 31, 2025, https://preprints.opticaopen.org/ndownloader/files/39261848
Real-time 3D Reconstruction at Scale using Voxel Hashing - Matthias Niessner, accessed July 31, 2025, https://niessnerlab.org/papers/2013/4hashing/niessner2013hashing.pdf
Signed Distance Fields: A Natural Representation for Both Mapping and Planning - Helen Oleynikova, accessed July 31, 2025, https://helenol.github.io/publications/rss_2016_workshop.pdf
Shading-based Refinement on Volumetric Signed Distance Functions - cs.Princeton, accessed July 31, 2025, https://www.cs.princeton.edu/courses/archive/fall16/cos526/papers/zollhofer15.pdf
Directional TSDF: Modeling Surface Orientation for Coherent Meshes - ais.uni-bonn.de, accessed July 31, 2025, https://ais.uni-bonn.de/papers/IROS_2019_Splietker.pdf
TSDF value when integrating around a thin surface - Stack Overflow, accessed July 31, 2025, https://stackoverflow.com/questions/71920716/tsdf-value-when-integrating-around-a-thin-surface
RoutedFusion: Learning Real-time Depth Map Fusion - Microsoft, accessed July 31, 2025, https://www.microsoft.com/en-us/research/wp-content/uploads/2020/06/RoutedFusion.pdf
[1908.05146] Directional TSDF: Modeling Surface Orientation for Coherent Meshes - ar5iv, accessed July 31, 2025, https://ar5iv.labs.arxiv.org/html/1908.05146
CS 184: Final Project - Ryan Koh, accessed July 31, 2025, https://kaipinryankoh.github.io/3d_reconstruction_app/
TSDF of KinectFusion: detailed description / GitHub, accessed July 31, 2025, https://gist.github.com/savuor/407fdc1807f9d5836d68aebfee726ef7
(PDF) An Octree-Based Approach towards Efficient Variational Range Data Fusion, accessed July 31, 2025, https://www.researchgate.net/publication/317193734_An_Octree-Based_Approach_towards_Efficient_Variational_Range_Data_Fusion
DFusion: Denoised TSDF Fusion of Multiple Depth Maps with Sensor Pose Noises - PMC, accessed July 31, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC8879644/
Directional TSDF: Modeling Surface Orientation for Coherent Meshes - Autonomous Intelligent Systems, accessed July 31, 2025, https://www.ais.uni-bonn.de/papers/IROS_2019_Splietker.pdf
Rendering and Tracking the Directional TSDF: Modeling Surface Orientation for Coherent Maps - arXiv, accessed July 31, 2025, https://arxiv.org/pdf/2108.08115
Kinect Fusion: Dense Surface Mapping and Tracking - Marc B, accessed July 31, 2025, https://marcb.pro/project/kinect-fusion/
KinectFusion: Real-time 3D Reconstruction and Interaction Using a Moving Depth Camera* - Microsoft, accessed July 31, 2025, https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/kinectfusion-uist-comp.pdf
GLSL truncated signed distance representation (TSDF) implementation - Stack Overflow, accessed July 31, 2025, https://stackoverflow.com/questions/40560801/glsl-truncated-signed-distance-representation-tsdf-implementation
TSDF Integration - Open3D 0.14.1 documentation, accessed July 31, 2025, https://www.open3d.org/docs/0.14.1/tutorial/t_reconstruction_system/integration.html
Depth Fusion For Large Scale Environments - Akash Sharma, accessed July 31, 2025, https://akashsharma02.github.io/old-website/pages/blogs/opencv_gsoc/opencv-gsoc.html
Deep Marching Cubes: Learning Explicit Surface … - Andreas Geiger, accessed July 31, 2025, https://www.cvlibs.net/publications/Liao2018CVPR.pdf
Can someone explain how the marching cubes algorithm works : r/askscience - Reddit, accessed July 31, 2025, https://www.reddit.com/r/askscience/comments/o5phi/can_someone_explain_how_the_marching_cubes/
Neural Geometric Level of Detail: Real-time Rendering with Implicit 3D Shapes - Research at NVIDIA, accessed July 31, 2025, https://research.nvidia.com/labs/toronto-ai/nglod/
Comparison of NeRF- and SfM-Based Methods for Point Cloud Reconstruction for Small-Sized Archaeological Artifacts - MDPI, accessed July 31, 2025, https://www.mdpi.com/2072-4292/17/14/2535
CHISEL: Real Time Large Scale 3D Reconstruction Onboard a Mobile Device using Spatially-Hashed Signed Distance Fields, accessed July 31, 2025, https://personalrobotics.cs.washington.edu/publications/klingensmith2015chisel.pdf
Onboard Real-time Dense Reconstruction of Large-scale Environments for UAV, accessed July 31, 2025, https://tisl.cs.toronto.edu/publication/201709-iros-dense_reconstruction/iros17-dense_reconstruction.pdf
Depth Fusion for Large Scale Environments Akash Sharma, accessed July 31, 2025, https://akashsharma02.github.io/projects/opencv-rgbd/
VDBFusion: Flexible and Efficient TSDF Integration of Range Sensor Data - PMC, accessed July 31, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC8838740/
An Octree-Based Approach towards Efficient Variational Range Data Fusion - TUM CAMP, accessed July 31, 2025, https://campar.in.tum.de/pub/kehl2016bmvc/kehl2016bmvc.pdf
Efficient Octree-Based Volumetric SLAM Supporting Signed-Distance and Occupancy Mapping - Department of Computing, accessed July 31, 2025, https://www.doc.ic.ac.uk/~sleutene/publications/EVespaRAL_final.pdf
Adaptive-resolution octree-based volumetric SLAM - Department of Computing, accessed July 31, 2025, https://www.doc.ic.ac.uk/~sleutene/publications/Vespa_3DV19.pdf
HVOFusion: Incremental Mesh Reconstruction Using Hybrid Voxel Octree - arXiv, accessed July 31, 2025, https://arxiv.org/html/2404.17974v1
TSDF++: A Multi-Object Formulation for Dynamic Object Tracking and Reconstruction - Research Collection, accessed July 31, 2025, https://www.research-collection.ethz.ch/bitstream/20.500.11850/523959/2/ICRA2021.pdf
TSDF-based Change Detection for Consistent Long-Term Dense Reconstruction and Dynamic Object Discovery, accessed July 31, 2025, https://n.ethz.ch/~cesarc/files/ICRA2017_mfehr.pdf
A Multi-sensor Deep Fusion SLAM Algorithm based on TSDF map - ResearchGate, accessed July 31, 2025, https://www.researchgate.net/publication/381510955_A_Multi-sensor_Deep_Fusion_SLAM_Algorithm_based_on_TSDF_map
A Fully Integrated System for Hardware-accelerated TSDF SLAM with LiDAR Sensors (HATSDF SLAM) - Knowledge-Based Systems, accessed July 31, 2025, https://kbs.informatik.uos.de/files/pdfs/ras2022_eisoldt.pdf
[2310.05766] FeatSense – A Feature-based Registration Algorithm with GPU-accelerated TSDF-Mapping Backend for NVIDIA Jetson Boards - arXiv, accessed July 31, 2025, https://arxiv.org/abs/2310.05766
HVOFusion: Incremental Mesh Reconstruction Using Hybrid Voxel Octree - IJCAI, accessed July 31, 2025, https://www.ijcai.org/proceedings/2024/0757.pdf
Voxblox: Incremental 3D Euclidean Signed Distance Fields for On-Board MAV Planning - Helen Oleynikova, accessed July 31, 2025, https://helenol.github.io/publications/iros_2017_voxblox.pdf
Good ways to convert Gaussian Splats to Mesh? : r/GaussianSplatting - Reddit, accessed July 31, 2025, https://www.reddit.com/r/GaussianSplatting/comments/1iz9p7d/good_ways_to_convert_gaussian_splats_to_mesh/
[2311.17878] TSDF-Sampling: Efficient Sampling for Neural Surface Field using Truncated Signed Distance Field - arXiv, accessed July 31, 2025, https://arxiv.org/abs/2311.17878