3D 포인트 클라우드 데이터는 자율 주행, 로보틱스, 증강 현실, 디지털 트윈 등 현대 기술의 다양한 분야에서 핵심적인 역할을 수행한다. 이러한 방대한 3차원 데이터로부터 의미 있는 정보를 추출하는 과정에서 특징점(Keypoint)과 특징 기술자(Feature Descriptor)는 가장 근본적인 구성 요소로 작용한다. 특징점 기반 접근법의 핵심 철학은, 수백만 개에 달하는 전체 포인트 클라우드를 직접 처리하는 대신, 정보량이 풍부하고 반복적으로 탐지 가능한 소수의 ‘중요한’ 지점들을 식별하고, 이 지점들 주변의 국소적인 기하학적 정보를 고유한 벡터로 기술하는 것이다.1 이 전략은 계산의 복잡성을 극적으로 감소시키면서도, 객체 인식, 3차원 모델 정합(registration), 장면 이해와 같은 고수준 컴퓨터 비전 작업에 필요한 핵심 정보를 보존한다.5 즉, 특징점은 데이터 처리의 효율성과 강건성을 동시에 확보하기 위한 필수적인 첫 단계이다.
최근 몇 년간 딥러닝 기술의 발전으로 데이터로부터 특징을 직접 학습하는 방법론이 큰 주목을 받고 있다.10 그러나 Harris, SIFT, ISS와 같은 전통적인, 즉 수작업으로 설계된(handcrafted) 알고리즘들은 여전히 학술 및 산업 현장에서 중요한 가치를 지닌다. 이 알고리즘들은 방대한 학습 데이터셋 없이도 작동하며, 그 동작 원리가 수학적으로 명확하여 결과의 해석 가능성이 높다는 장점을 가진다. 특정 응용 분야나 제약 조건 하에서는 최신 딥러닝 기술에 필적하거나 이를 능가하는 성능을 보이기도 한다. 더욱이, 이들은 새로운 학습 기반 방법론의 성능을 평가하고 비교 분석하기 위한 강력하고 신뢰성 있는 베이스라인(baseline)으로서 필수적인 역할을 수행한다.12
본 보고서는 3D 포인트 클라우드 처리 분야에서 근간을 이루는 6가지 핵심 전통적 알고리즘-NARF(Normal Aligned Radial Feature), SIFT(Scale-Invariant Feature Transform) Keypoint, HarrisKeypoint3D, ISSKeypoint3D(Intrinsic Shape Signatures), SUSANKeypoint, SHOT(Signatures of Histograms of OrienTations)-을 심층적으로 분석하고 비교하는 것을 목적으로 한다. 각 알고리즘의 이론적 배경과 수학적 원리를 탐구하고, 구현상의 주요 특징, 다양한 교란 요인에 대한 성능적 강건성, 그리고 계산 복잡도를 다각적으로 조명할 것이다.
이 분석을 통해, 단순히 알고리즘들을 나열하는 것을 넘어 이들의 근본적인 차이점을 명확히 하고자 한다. 3D 특징점 처리 파이프라인은 크게 두 가지 핵심 역할, 즉 “어디에 특징점이 있는가?”를 찾는 탐지기(Detector)와 “그 특징점 주변을 어떻게 표현할 것인가?”를 정의하는 기술자(Descriptor)로 나뉜다. 본 보고서에서 다루는 알고리즘들은 이 역할에 따라 명확히 구분된다. HarrisKeypoint3D, ISSKeypoint3D, SUSANKeypoint는 주로 탐지기 역할에 집중하며 14, SHOT은 순수한 기술자이다.11 반면, NARF와 SIFT는 탐지기와 기술자 기능을 모두 포함하는 통합 프레임워크의 성격을 띤다.18 이러한 역할 분담을 이해하는 것은 전체 시스템의 성능을 예측하고 최적의 알고리즘 조합을 찾는 데 매우 중요하다. 실제 응용에서는 ‘ISS 탐지기 + SHOT 기술자’와 같이 각 역할에 가장 적합한 알고리즘을 조합하여 사용하는 경우가 많기 때문이다.9
따라서 본 보고서는 먼저 각 탐지기와 기술자를 개별적으로 심층 분석한 후, 이들의 조합과 성능 트레이드오프를 종합적으로 비교하고, 최종적으로 특정 응용 분야에 가장 적합한 알고리즘을 선택하기 위한 실용적인 가이드라인을 제시하며 마무리할 것이다.
특징점 탐지기는 포인트 클라우드 내에서 안정적이고 반복적으로 검출될 수 있는, 즉 정보량이 풍부한 지점을 식별하는 역할을 한다. 이 장에서는 “어디에 특징점이 있는가?”라는 질문에 각기 다른 철학으로 답하는 5가지 주요 탐지 알고리즘의 핵심 원리와 수학적 기반을 상세히 분석한다.
SIFT는 원래 2D 이미지 특징점 추출을 위해 개발되었으나, 그 강력한 성능 덕분에 3D 포인트 클라우드 환경으로 확장되었다.20
SIFT의 핵심 아이디어는 스케일 공간(Scale-Space) 이론에 기반한다. 객체를 다양한 크기(스케일)에서 관찰하더라도 동일한 특징점을 안정적으로 찾기 위해, 원본 데이터에 여러 단계의 가우시안 블러링(Gaussian blurring)을 적용하여 다중 스케일 표현을 생성한다.21 이후 인접한 스케일의 이미지 간 차분(Difference-of-Gaussians, DoG)을 계산하여 스케일 변화에 강건한 특징점 후보를 찾는다.21
3D SIFT는 2D에서의 픽셀 강도(intensity) 개념을 3D 고유의 속성으로 대체한다. 대표적으로 점의 국소적 밀도(density) 4나 주 곡률(principal curvature) 20이 사용된다.
SIFT의 성능은 여러 파라미터에 의해 조절된다.
nOctaveLayers: 각 스케일 옥타브 내의 레이어 수. 이 값을 높이면 더 촘촘한 스케일 간격을 탐색하여 정확도를 높일 수 있지만 계산 비용이 증가한다.22contrastThreshold: DoG 값이 이 임계값보다 낮은, 즉 대비가 약한 특징점 후보를 제거한다. 이는 노이즈나 불안정한 특징점을 걸러내는 데 중요한 역할을 한다.22edgeThreshold: 주 곡률의 비율을 분석하여 평평한 엣지(edge) 상에 위치한 불안정한 특징점을 제거한다. 코너와 같이 여러 방향으로 곡률이 뚜렷한 점만 남기기 위함이다.22SIFT는 이름에서 알 수 있듯이 스케일 변화에 매우 강건하다. 하지만 30도 이상의 큰 시점 변화에 대해서는 매칭 성능이 급격히 저하되는 한계를 보인다.24 또한 다중 스케일 공간을 구축하고 모든 후보점에 대해 이웃 비교를 수행하는 과정에서 계산 복잡도가 매우 높아 실시간 응용에는 제약이 따른다.20
Harris 탐지기는 2D 이미지에서 코너(corner)를 찾는 데 널리 사용되는 알고리즘으로, 이를 3D 공간으로 확장한 것이다.5
2D Harris 코너 탐지기는 이미지의 특정 지점 주변에서 모든 방향으로 픽셀 강도 변화가 큰 지점을 코너로 정의한다. 3D HarrisKeypoint는 이 아이디어를 3D 포인트 클라우드에 적용하기 위해, 픽셀 강도의 그래디언트 대신 각 점에서의 표면 법선(surface normal) 벡터를 사용한다.14 즉, 3D 코너는 주변 법선 벡터들이 모든 방향으로 급격하게 변하는 지점으로 간주된다.
각 점 $p$와 그 주변 이웃 점들의 법선 벡터를 이용하여 3x3 공분산 행렬(Covariance Matrix) 또는 구조 텐서(Structure Tensor) $M$을 구축한다. 2D에서 이미지 그래디언트 $I_x, I_y$의 곱을 사용했다면, 3D에서는 법선 벡터 $n_x, n_y, n_z$의 편미분을 이용해 행렬을 구성한다.5 \(M = \sum_{q \in N(p)} w(q) \begin{bmatrix} n_x^2 & n_x n_y & n_x n_z \\ n_y n_x & n_y^2 & n_y n_z \\ n_z n_x & n_z n_y & n_z^2 \end{bmatrix}\) 여기서 $w(q)$는 가우시안 가중치이다. 이 행렬의 고유값 $\lambda_1, \lambda_2, \lambda_3$는 세 개의 직교하는 주축 방향으로의 법선 변화량의 크기를 나타낸다. 코너 응답 함수 $R$은 이 고유값들을 조합하여 계산되며, $R$ 값이 큰 지점이 코너로 탐지된다. Point Cloud Library(PCL)에서는 여러 종류의 응답 함수를 제공한다.26
HarrisKeypoint3D는 계산이 비교적 빠르고 9, 코너나 엣지와 같이 기하학적으로 뚜렷한 구조를 탐지하는 데 효과적이다. 그러나 법선 추정의 정확도에 성능이 크게 좌우되며, 노이즈가 심한 데이터에서는 부정확한 법선으로 인해 성능이 저하될 수 있다.20 또한, 고정된 이웃 크기를 사용하므로 SIFT와 달리 스케일 불변성을 내재적으로 보장하지 않는다.
ISS는 반복성(repeatability)이 높은 특징점을 탐지하는 데 중점을 둔 알고리즘이다.2
좋은 특징점은 그 주변의 기하학적 구조가 모든 주축 방향으로 풍부한 변화를 보이는 지점이어야 한다는 직관에 기반한다. 즉, 평면(변화가 두 방향으로만 큼)이나 선(변화가 한 방향으로만 큼)과 같은 퇴화된(degenerate) 구조를 가진 점들은 배제하고, 3차원적으로 복잡한 구조를 가진 점을 선택한다.15
ISS의 핵심은 각 점 $p$의 이웃 점들로 구성된 산점 행렬(scatter matrix) $\Sigma(p)$의 고유값 분해(Eigenvalue Decomposition)에 있다.30
산점 행렬 계산: 점 $p$의 이웃 영역 $N(p)$에 대해 산점 행렬을 다음과 같이 계산한다. \(\Sigma(p) = \frac{1}{|N(p)|} \sum_{q \in N(p)} (q - \mu_p)(q - \mu_p)^T\) 여기서 $\mu_p$는 이웃 점들의 평균 위치(중심점)이다.
고유값 분석: 산점 행렬 $\Sigma(p)$를 고유값 분해하여 크기 순으로 정렬된 고유값 $\lambda_1 \ge \lambda_2 \ge \lambda_3$를 얻는다. 이 고유값들은 각 주축 방향으로 점들이 얼마나 퍼져 있는지를 나타낸다.
특징점 조건: ISS는 안정적이고 반복적인 특징점을 찾기 위해 고유값들 사이에 다음과 같은 제약 조건을 적용한다.15
$\lambda_2 / \lambda_1 < \gamma_{21}$
$\lambda_3 / \lambda_2 < \gamma_{32}$
첫 번째 조건($\lambda_1$이 $\lambda_2$보다 훨씬 큼)은 점들의 분포가 선(line) 형태가 아님을 보장한다. 두 번째 조건($\lambda_2$가 $\lambda_3$보다 훨씬 큼)은 점들의 분포가 평면(plane) 형태가 아님을 보장한다. $\gamma_{21}$과 $\gamma_{32}$는 보통 1에 가까운 값(예: 0.975)으로 설정되어, 세 고유값이 비교적 균일하게 큰 값을 갖는 것을 방지한다.
비최대 억제(Non-Maximum Suppression): 위의 조건을 만족하는 점들 중에서, 가장 작은 고유값 $\lambda_3$을 현저성(saliency) 점수로 사용한다. 이 점수가 이웃 내에서 최대인 점만이 최종 특징점으로 선택된다.30
ISS는 시점 변화에 대해 매우 높은 반복성을 보이는 것으로 알려져 있으며, 여러 비교 연구에서 가장 우수한 성능을 보이는 탐지기 중 하나로 꾸준히 언급된다.3 이러한 강건성 덕분에 로봇의 위치 추정 및 지도 작성을 동시에 수행하는 SLAM(Simultaneous Localization and Mapping)과 같이 안정성이 극히 중요한 응용 분야에서 널리 선호된다.31
SUSAN은 미분 연산을 사용하지 않는 독특한 접근 방식으로 특징점을 탐지한다.32
알고리즘의 이름이 그 원리를 잘 설명한다. 각 점(nucleus, 핵)을 중심으로 하는 원형 마스크(mask) 내에서, 핵과 유사한 값을 갖는 영역, 즉 USAN(Univalue Segment Assimilating Nucleus)을 찾는다.18 기하학적으로 평평한 영역의 중심에 핵이 위치하면 USAN의 면적은 최대가 된다. 반면, 핵이 엣지에 가까워지면 USAN의 면적은 절반 정도로 줄어들고, 코너에 위치하면 면적은 최소가 된다. SUSAN은 바로 이 가장 작은(Smallest) USAN을 가진 지점을 코너, 즉 특징점으로 탐지한다.32
원본 2D SUSAN은 픽셀의 밝기(brightness)를 비교하지만, PCL에 구현된 3D SUSANKeypoint는 3차원 데이터의 특성을 반영하기 위해 강도(intensity) 정보와 표면 법선(normal) 정보를 함께 활용한다.7
USAN 결정: 중심점 $p_i$의 이웃 점 $p_j$가 USAN에 포함되는지 여부는 다음 두 임계값을 기준으로 판단된다.
| 법선 각도 임계값 $t_a$: $1 - | \mathbf{n}_i \cdot \mathbf{n}_j | < t_a$ |
응답 계산: USAN의 면적(즉, 위 조건을 만족하는 이웃 점의 수) $A$를 계산하고, 이를 이용해 응답 함수 $R$를 계산한다. \(R = g - A\) 여기서 $g$는 기하학적 임계값(USAN 면적의 최대 가능값)이다. $R$ 값이 큰 지점, 즉 USAN 면적이 작은 지점이 특징점 후보가 된다.
비최대 억제: 후보점들 중에서 응답 값이 국소적으로 최대인 점들만 최종 특징점으로 선택한다.
SUSAN은 미분 연산을 사용하지 않으므로 이미지 그래디언트에 의존하는 Harris나 SIFT에 비해 노이즈에 더 강건하고 계산이 빠르다는 장점이 있다.32 하지만 성능이 마스크 반경, 강도 임계값, 법선 임계값 등 여러 파라미터에 민감하게 반응할 수 있어 튜닝이 필요하다.
NARF는 3D 포인트 클라우드를 직접 처리하는 대신, 이를 2.5D 거리 이미지(Range Image)로 변환하여 처리하는 독특한 접근법을 취한다.1
NARF의 핵심 아이디어는 두 가지로 요약된다. 첫째, 센서의 시점에서 발생하는 객체의 경계(object borders) 정보를 명시적으로 활용한다. 둘째, 특징점 자체는 표면이 안정적인(stable) 곳에 위치시키되, 그 주변에는 기하학적 변화가 풍부한 곳을 선택한다.18 이는 특징점의 위치는 안정적으로 유지하면서도, 주변 정보는 풍부하게 만들어 후속 기술자(descriptor) 계산이 더 강건하고 변별력 있게 이루어지도록 하기 위함이다.
NARF는 깊이 카메라나 라이다(LiDAR) 센서로부터 직접 얻을 수 있는 거리 이미지 데이터에 매우 효율적으로 적용될 수 있다. 특히 부분적인 뷰(partial view)에서 객체의 외곽선 정보를 효과적으로 활용하여 특징점을 찾는 데 강점이 있다. 그러나 비조직화된(unorganized) 포인트 클라우드에는 먼저 거리 이미지로 변환하는 전처리 과정이 필요하며, 생성된 거리 이미지는 센서의 시점(viewpoint)에 의존적이므로 시점 변화에 민감할 수 있다는 단점을 가진다.
이처럼 3D 특징점 탐지기는 각기 다른 철학을 바탕으로 ‘중요한 점’을 정의한다. SIFT와 Harris는 변화율(미분)에, ISS는 기하학적 구조의 안정성에, SUSAN은 영역 내 값의 균일성에, 그리고 NARF는 2.5D 투영과 경계 정보에 초점을 맞춘다. 이러한 근본적인 패러다임의 차이는 각 알고리즘이 특정 데이터 유형과 응용 시나리오에 대해 보이는 강점과 약점을 결정하며, 이는 알고리즘 선택의 중요한 기준이 된다.
특징 기술자는 탐지된 특징점 주변의 국소적인 기하학적 정보를 고유하고 압축된 형태의 벡터로 표현하는 역할을 한다. 좋은 기술자는 서로 다른 위치의 특징점을 구별할 수 있는 높은 변별력(Distinctiveness)과, 시점 변화나 노이즈에도 불구하고 동일한 위치의 특징점을 항상 같은 벡터로 표현하는 불변성(Invariance)을 동시에 갖추어야 한다.
SHOT은 현재 가장 널리 사용되고 성능이 입증된 3D 특징 기술자 중 하나로, 기하학적 속성 히스토그램 기반 기술자의 대표적인 예이다.11
SHOT의 핵심 아이디어는 특징점 주변의 기하학적 형상을 표면 법선 벡터들의 방향성 분포를 통해 요약하는 것이다. 즉, 주변 점들의 법선이 특징점의 법선에 대해 어떤 방향으로 분포하는지를 히스토그램으로 만들어 고유한 ‘서명(Signature)’으로 사용한다.
기술자의 회전 불변성을 보장하는 것은 매우 중요하다. 이를 위해 SHOT은 기술자 계산에 앞서 각 특징점에 대해 고유하고 반복적으로 결정될 수 있는 LRF(Local Reference Frame)를 구축한다.11 LRF는 일종의 지역 좌표계로, 특징점
$p$와 그 이웃 점들의 좌표 및 법선 정보를 이용하여 주성분 분석(PCA)과 유사한 방식으로 계산된다. 이 과정은 모호성을 해결하기 위해 추가적인 규칙을 포함하며, 결과적으로 특징점마다 유일한 3개의 직교 축(x, y, z)을 정의한다. 이후의 모든 계산은 이 LRF를 기준으로 이루어지므로, 원본 포인트 클라우드가 임의로 회전하더라도 LRF 자체가 함께 회전하여 기술자 값은 변하지 않게 된다.40
SHOT은 매우 높은 변별력을 가지며, 노이즈와 점 밀도 변화에도 비교적 강건한 성능을 보인다. 그러나 LRF 계산과 352차원의 히스토그램 생성 과정은 계산 비용이 높은 편이며, 기술자의 성능은 LRF가 얼마나 안정적으로 계산되는지에 크게 의존한다. 이러한 계산 및 메모리 부담을 줄이기 위해, 실수형 벡터를 이진(binary) 벡터로 변환하는 B-SHOT 42이나
CI-SHOT 43과 같은 변형 알고리즘들이 제안되었다. 이들은 매칭 속도를 크게 향상시키고 메모리 사용량을 줄여 실시간 응용에 더 적합하다.
NARF 기술자는 NARF 탐지기와 마찬가지로 거리 이미지(Range Image)를 기반으로 작동하며, 법선 정보를 적극적으로 활용한다.
특징점의 법선 방향으로 정렬된 2D 이미지 패치(patch)를 생성하고, 그 위에 방사형 패턴을 적용하여 특징을 추출하는 방식이다. 이는 3D 공간 정보를 2D 이미지 처리 기술로 효율적으로 분석하려는 시도이다.18
법선 정렬 패치를 통해 Z축 회전을 제외한 회전 불변성이 확보된다. 남은 Z축 주변의 회전(in-plane rotation)에 대한 불변성은 패치 내에서 계산된 주된 방향(dominant orientation)을 찾고, 이 방향을 기준으로 기술자 벡터의 요소들을 순환적으로 이동(shift)시켜 정규화함으로써 달성된다.18
3D SIFT 기술자는 2D SIFT의 핵심 아이디어를 3D 시공간(spatio-temporal)으로 확장한 개념이다.44 여기서 ‘시간’은 실제 시간이 아닌 스케일(scale) 차원을 의미한다.
특징점 주변의 3D 공간에서 그래디언트의 방향과 크기를 다차원 히스토그램으로 만들어 고유한 특징으로 표현한다.
3D 그래디언트 계산: 공간 좌표(x, y)와 스케일 좌표(t)에 대한 그래디언트 성분 $L_x, L_y, L_t$를 유한 차분을 이용해 근사적으로 계산한다.
3D 방향 및 크기 계산: 계산된 그래디언트 성분들을 사용하여 3D 그래디언트의 크기 $m_{3D}$와 두 개의 방향각, 즉 구면 좌표계의 방위각 $\theta$와 고도각 $\phi$를 계산한다.44 \(m_{3D}(x, y, t) = \sqrt{L_x^2 + L_y^2 + L_t^2}\)
\[\theta(x, y, t) = \tan^{-1}(L_y / L_x)\] \[\phi(x, y, t) = \tan^{-1}(L_t / \sqrt{L_x^2 + L_y^2})\]다차원 히스토그램 생성: 특징점 주변 영역을 2D SIFT와 유사하게 공간적으로 분할한다 (예: 4x4x4=64개의 3D 하위 볼륨). 각 하위 볼륨에 대해, 그 안에 속한 점들의 3D 그래디언트 방향($\theta, \phi$)에 대한 2D 히스토그램을 생성한다. 이때 각 점의 기여도는 그래디언트 크기 $m_{3D}$와 중심점으로부터의 거리에 따른 가우시안 가중치를 곱하여 가중된다.
최종 기술자 벡터: 모든 하위 볼륨의 히스토그램들을 직렬로 연결하여 최종적인 고차원 기술자 벡터를 생성한다. 2D SIFT가 128차원인 것에 비해, 3D SIFT는 훨씬 더 큰 차원의 벡터를 생성하게 된다.22
3D SIFT 기술자는 스케일과 회전에 불변하는 매우 풍부한 정보를 담고 있지만, 그만큼 계산 복잡도가 매우 높고 기술자 벡터의 차원이 커서 저장 및 매칭에 많은 비용이 소요된다는 명확한 단점이 있다.
결론적으로, 성공적인 3D 특징 기술자들은 복잡한 3D 국소 기하학을 이산적이고(discrete) 표준화된(canonical) 벡터로 변환하기 위한 공통된 전략을 채택한다. 첫째, 안정적인 LRF(Local Reference Frame) 구축을 통해 회전 불변성 문제를 해결한다. LRF의 안정성은 기술자 전체의 성능을 좌우하는 핵심 요소이다.41 둘째, 히스토그램 기반 양자화(quantization)를 통해 주변 정보를 요약하고 압축한다. 이는 미세한 노이즈나 점 밀도 변화에 대한 민감도를 줄이고, 다양한 국소 형상을 비교 가능한 형태로 만드는 효과적인 추상화 메커니즘이다. LRF가 ‘기준’을 설정하고 히스토그램이 ‘내용’을 요약하는 이 두 가지 전략은 3D 공간의 연속적이고 복잡한 정보를 다루기 위한 핵심적인 접근법이라 할 수 있다.
앞서 개별적으로 분석한 알고리즘들을 동일한 척도 위에서 비교하며, 각 알고리즘의 성능, 효율성, 그리고 이 둘의 조합이 만들어내는 시너지를 종합적으로 평가한다.
알고리즘의 성능은 주로 반복성, 변별력, 그리고 다양한 교란 요인에 대한 강건성으로 평가된다.
좋은 탐지기는 동일한 객체를 다른 시점에서 보거나 노이즈가 추가되어도 항상 같은 지점을 특징점으로 찾아내는 높은 반복성을 가져야 한다. 한편, 좋은 기술자는 서로 다른 특징점들을 명확히 구분할 수 있는 높은 변별력을 가져야 한다. 이 두 가지 특성은 때때로 상충 관계에 있다. 예를 들어, 넓고 평평한 벽면의 중심점은 매우 안정적으로 반복해서 찾을 수 있지만(높은 반복성), 그 지점은 아무런 기하학적 특징이 없어 변별력이 거의 없다.2 ISS와 같은 탐지기는 기하학적 안정성에 기반하여 반복성이 높은 지점을 찾는 데 중점을 두는 반면, SHOT과 같은 기술자는 풍부한 정보를 인코딩하여 변별력을 극대화하는 것을 목표로 한다.
| 알고리즘 | 역할 | 스케일 불변성 | 회전 불변성 | 노이즈 강건성 | 가려짐/클러터 강건성 | 밀도 변화 강건성 | 시점 변화 강건성 |
|---|---|---|---|---|---|---|---|
| NARF | 탐지기+기술자 | 약함 | 강함 (주 방향) | 보통 (거리 이미지) | 강함 (경계 활용) | 약함 (거리 이미지 의존) | 약함 (시점 의존) |
| SIFT | 탐지기+기술자 | 매우 강함 (DoG) | 강함 (주 방향) | 강함 (가우시안 필터) | 강함 (국소적) | 보통 | 보통 (<30°) |
| Harris3D | 탐지기 | 약함 (고정 스케일) | 약함 | 약함 (법선 의존) | 강함 (국소적) | 약함 (법선 의존) | 보통 |
| ISS3D | 탐지기 | 약함 (고정 스케일) | 매우 강함 (고유값) | 보통 (평균화) | 강함 (국소적) | 보통 | 매우 강함 |
| SUSAN | 탐지기 | 약함 (고정 스케일) | 약함 | 강함 (미분 미사용) | 강함 (국소적) | 보통 | 보통 |
| SHOT | 기술자 | 약함 (고정 스케일) | 매우 강함 (LRF) | 보통 (법선 의존) | 강함 (국소적) | 보통 | 매우 강함 (LRF) |
알고리즘의 실용성은 성능뿐만 아니라 계산에 필요한 시간과 자원에 의해 결정된다.
계산 부담을 줄이기 위한 다양한 최적화 기법이 존재한다. SHOT의 경우, 352차원의 실수형 벡터를 352비트의 이진 벡터로 변환하는 B-SHOT이 제안되었다. B-SHOT은 매칭 시 유클리드 거리 대신 비트 연산으로 빠른 해밍 거리(Hamming distance)를 사용함으로써, 6배 빠른 매칭 속도와 32배 적은 메모리 사용량을 달성했다.42 또한, 많은 PCL 구현체들은 OpenMP를 이용한 병렬 처리를 지원하여 멀티코어 CPU 환경에서 성능을 향상시킨다.40
| 알고리즘 | 역할 | 시간 복잡도 (per point) | 공간 복잡도 (per point) | 주요 파라미터 | 필요 입력 데이터 |
|---|---|---|---|---|---|
| NARF | 탐지기+기술자 | 빠름 | 낮음 | support_size |
거리 이미지 |
| SIFT | 탐지기+기술자 | 매우 높음 | 높음 (128+ dim) | nOctaveLayers, contrastThreshold |
좌표, 강도/곡률 |
| Harris3D | 탐지기 | 빠름 | 낮음 (응답값) | radius, threshold, method |
좌표, 법선 |
| ISS3D | 탐지기 | 보통 | 낮음 (응답값) | salient_radius, gamma_21, gamma_32 |
좌표 |
| SUSAN | 탐지기 | 빠름 | 낮음 (응답값) | radius, intensity_threshold, angular_threshold |
좌표, 법선, 강도 |
| SHOT | 기술자 | 높음 | 높음 (352 dim) | radius |
좌표, 법선 |
실제 응용에서 최상의 성능은 개별 알고리즘의 성능이 아닌, 탐지기와 기술자의 현명한 조합에서 비롯된다.
지금까지의 분석을 바탕으로, 실제 응용 시나리오별로 어떤 알고리즘 또는 조합이 가장 적합한지에 대한 실용적인 지침을 제공한다.
이 분야의 핵심 요구사항은 실시간성과 강건성이다. 로봇이 움직이면서 계속해서 새로운 데이터를 처리해야 하므로 계산 속도가 빨라야 하며, 시점 변화, 조명 변화, 동적 객체로 인한 노이즈 등 다양한 환경 변화에도 안정적으로 자신의 위치를 추정하고 지도를 작성해야 한다.
이 분야에서는 실시간성보다는 높은 변별력과 부분적 가려짐(occlusion) 및 클러터(clutter)에 대한 강건성이 더 중요하다. 데이터베이스에 저장된 수많은 객체 모델 중에서 주어진 장면에 있는 객체를 정확히 찾아내거나, 유사한 객체를 검색해내는 것이 목표이다.
이 분야에서는 높은 정밀도와 안정성이 가장 중요하다. 기계 부품의 마모 상태를 검사하거나, 문화재를 디지털로 복원하는 등의 작업에서는 특정 기하학적 결함(코너, 엣지, 균열 등)을 정확하게 탐지하고, 반복적인 측정에서도 일관된 결과를 얻는 것이 필수적이다.
이러한 응용에서는 여러 각도에서 촬영한 포인트 클라우드 스캔들을 하나의 정밀한 3D 모델로 정합(registration)하는 과정이 필수적이다. Harris나 SUSAN으로 탐지된 정밀한 특징점들은 이 정합 과정의 기준점(correspondences)으로 사용되어, 최종 3D 재구성 모델의 정확도를 높이는 데 결정적인 기여를 한다.25
본 보고서는 6가지 전통적 3D 특징점 알고리즘인 NARF, SIFT, Harris3D, ISS3D, SUSAN, SHOT에 대한 심층 비교 분석을 수행했다. 분석 결과, 각 알고리즘은 고유한 수학적 철학을 바탕으로 설계되었으며, 성능, 효율성, 강건성 측면에서 명확한 트레이드오프 관계를 보임을 확인했다. 따라서 “모든 상황에 최적인 단 하나의 알고리즘”은 존재하지 않으며, 최적의 선택은 항상 응용 분야의 구체적인 요구사항과 처리해야 할 데이터의 특성에 따라 달라진다. 성공적인 알고리즘 선택을 위한 핵심 기준은 다음 네 가지로 요약할 수 있다.
본 보고서에서 다룬 전통적 알고리즘들은 3D 컴퓨터 비전 분야의 근간을 이루는 중요한 도구이다. 이들은 기하학적 원리에 기반하여 직관적이고 해석 가능한 결과를 제공하며, 오늘날에도 많은 시스템에서 핵심적인 역할을 수행하고 있다. 그러나 이들은 명확한 한계 또한 가지고 있다. 최적의 성능을 내기 위해 수많은 파라미터를 수동으로 조정해야 하는 어려움, 복잡하고 비정형적인 실제 환경에서의 강건성 한계, 그리고 객체의 색상, 질감, 또는 의미론적(semantic) 정보를 활용하지 못하는 점 등이 그것이다.
이러한 전통적 방법론의 한계를 극복하기 위해, 최근의 연구 동향은 특징점 탐지와 기술 과정을 데이터로부터 직접 학습하는 학습 기반(Learning-based) 방법론으로 빠르게 이동하고 있다.2 딥러닝 모델은 특정 데이터셋에 대해 더 높은 반복성과 변별력을 달성할 수 있으며, 탐지기와 기술자를 하나의 네트워크에서 동시에 최적화하는 End-to-End 학습을 통해 조합 문제를 근본적으로 해결할 잠재력을 보여준다.
향후 3D 특징점 연구는 전통적 알고리즘이 제공하는 명확한 기하학적 통찰과 딥러닝의 강력한 데이터 기반 표현 학습 능력을 결합하는 하이브리드(hybrid) 방식이나, 다양한 환경과 데이터에 대해 일반화 성능이 뛰어나고 더욱 강건한 새로운 학습 기반 특징을 개발하는 방향으로 나아갈 것이다. 전통적 알고리즘에 대한 깊은 이해는 이러한 미래 기술을 개발하고 평가하는 데 있어 여전히 필수적인 기초가 될 것이다.
| NARF keypoint computation | Download Scientific Diagram - ResearchGate, accessed July 24, 2025, https://www.researchgate.net/figure/NARF-keypoint-computation_fig3_267390917 |
| 3D-SUSAN: A robust extension of 2D SUSAN operator for 3D interest points detection | Request PDF - ResearchGate, accessed July 24, 2025, https://www.researchgate.net/publication/323672283_3D-SUSAN_A_robust_extension_of_2D_SUSAN_operator_for_3D_interest_points_detection |
| The quality of the voxel grid based on the point cloud resolution… | Download Scientific Diagram - ResearchGate, accessed July 24, 2025, https://www.researchgate.net/figure/The-quality-of-the-voxel-grid-based-on-the-point-cloud-resolution-calculated-by-the-mean_fig1_277386160 |
| 3D-SIFT keypoint computation | Download Scientific Diagram - ResearchGate, accessed July 24, 2025, https://www.researchgate.net/figure/D-SIFT-keypoint-computation_fig5_267390917 |
| SIFT Descriptor | SIFT Detector - YouTube, accessed July 24, 2025, https://www.youtube.com/watch?v=IBcsS8_gPzE |
| NARF 3D Range Image Features For Object Recognitio | PDF - Scribd, accessed July 24, 2025, https://www.scribd.com/document/392344911/NARF-3D-Range-Image-Features-for-Object-Recognitio |
| Scale-Invariant Feature Transform (SIFT) | Computer Vision and Image Processing Class Notes | Fiveable, accessed July 24, 2025, https://library.fiveable.me/computer-vision-and-image-processing/unit-3/scale-invariant-feature-transform-sift/study-guide/aGPD0BuZ2rC30OQp |
| Low Complexity Keypoint Extraction Based on SIFT Descriptor and Its Hardware Implementation for Full-HD 60fps Video | Request PDF - ResearchGate, accessed July 24, 2025, https://www.researchgate.net/publication/274466807_Low_Complexity_Keypoint_Extraction_Based_on_SIFT_Descriptor_and_Its_Hardware_Implementation_for_Full-HD_60fps_Video |