7.2 6D 물체 포즈 추정의 진화 (Evolution of 6D Object Pose Estimation)
6D 물체 포즈 추정(6D Object Pose Estimation)은 컴퓨터 비전과 로보틱스 분야에서 가장 본질적이면서도 난이도가 높은 핵심 과제로 자리 잡고 있다. 이 기술은 카메라 좌표계(Camera Coordinate System) 내에서 대상 객체의 3차원 위치(Translation, \mathbf{t} \in \mathbb{R}^3)와 3차원 회전(Rotation, \mathbf{R} \in SO(3))을 포함하는 강체 변환(Rigid Body Transformation)을 정확하게 규명하는 것을 목표로 한다. 단순히 이미지 내에서 객체의 존재 여부나 2D 위치를 파악하는 객체 검출(Object Detection)을 넘어, 객체의 정확한 자세를 파악하는 것은 로봇 팔을 이용한 정밀 조작(Robotic Manipulation), 자율 주행 차량의 주변 환경 인식, 그리고 가상 콘텐츠를 현실 세계에 정합해야 하는 증강 현실(AR) 등의 응용 분야에서 필수불가결한 요소이다.
지난 십여 년간 이 분야는 괄목할 만한 성장을 이루었다. 초기에는 수작업으로 설계된 특징(Hand-crafted Features)과 템플릿 매칭(Template Matching)에 의존하던 방식에서 시작하여, 딥러닝(Deep Learning)의 도입과 함께 직접 회귀(Direct Regression) 모델, 기하학적 제약 조건을 활용한 키포인트 투표(Keypoint Voting) 방식, 그리고 RGB-D 센서 데이터를 융합하는 픽셀 단위 융합(Dense Fusion) 기술로 발전해 왔다. 최근에는 거대 언어 모델(LLM)과 생성형 AI(Generative AI)를 활용하여 학습 데이터의 한계를 극복하고, 미지의 객체(Novel Object)까지 즉각적으로 추론할 수 있는 파운데이션 모델(Foundation Model)의 시대로 진입하고 있다. 본 장에서는 이러한 기술적 진화의 궤적을 5세대로 나누어 심층적으로 분석하고, 각 단계가 이전 세대의 한계를 어떻게 극복했으며 어떠한 기술적 통찰을 남겼는지 상세히 기술한다.
1. 초기 접근법과 기하학적 템플릿 매칭의 시대 (The Era of Geometric Template Matching)
딥러닝 기술이 컴퓨터 비전 분야를 장악하기 이전, 6D 포즈 추정 문제는 주로 지역적 특징(Local Features) 매칭이나 전역적 템플릿(Global Template) 매칭을 통해 해결되었다. SIFT(Scale-Invariant Feature Transform)나 SURF(Speeded Up Robust Features)와 같은 기술들은 객체 표면의 독특한 텍스처 패턴을 기술자(Descriptor)로 변환하여 매칭하는 방식을 사용했다. 이러한 방식은 화려한 무늬가 있는 과자 상자나 잡지와 같은 객체에는 매우 효과적이었으나, 산업용 부품, 금속 도구, 가정용 기구 등 텍스처가 부족한(Texture-less) 객체에 대해서는 특징점을 추출하지 못해 심각한 성능 저하를 겪었다.
이러한 텍스처 부재(Texture-less) 문제를 해결하기 위해 등장한 것이 바로 템플릿 매칭 기반의 접근법이며, 그 정점에 있는 연구가 바로 Hinterstoisser 등이 2012년에 제안한 LINEMOD 알고리즘이다.
1.1 LINEMOD: 다중 모달 템플릿 매칭의 정립
LINEMOD는 텍스처 정보에 의존하는 대신, 객체의 형상(Shape) 정보와 색상 그라디언트(Color Gradient) 정보를 결합하여 강건한 템플릿을 생성하는 방식을 제안했다. 이 알고리즘의 핵심은 서로 다른 두 가지 모달리티(Modality)의 장점을 융합하고, 이를 실시간으로 처리할 수 있는 효율적인 메모리 구조를 설계한 데에 있다.
첫째, 양식화된 그라디언트와 표면 법선의 융합이다. LINEMOD는 RGB 이미지에서 추출한 그라디언트의 방향과 깊이(Depth) 센서에서 얻은 3D 표면 법선(Surface Normal)을 주요 특징으로 사용한다. RGB 그라디언트는 조명의 밝기 변화에 강건하며 객체의 윤곽선을 잘 표현하는 반면, 표면 법선은 객체의 3차원 기하학적 형상을 직접적으로 나타내므로 색상이 균일한 객체 내부의 형상 정보를 포착하는 데 유리하다. LINEMOD는 이 두 정보를 양자화(Quantization)하여 하나의 템플릿으로 결합함으로써, 텍스처가 없는 객체에서도 높은 검출 성능을 확보했다.
둘째, 선형화된 메모리(Linearized Memory)와 고속 매칭이다. 수천 개의 템플릿(다양한 시점과 거리에서의 객체 모습)을 입력 이미지와 실시간으로 비교하는 것은 연산량이 매우 많은 작업이다. LINEMOD는 이미지 전체를 스캔하는 대신, 미리 계산된 반응 맵(Response Map)을 선형 메모리 구조로 변환하고, SSE(Streaming SIMD Extensions)와 같은 CPU의 병렬 명령어 세트를 활용하여 유사도 계산을 비트 연산 수준으로 최적화했다. 이를 통해 당시의 하드웨어에서도 수천 개의 템플릿을 수 밀리초(ms) 내에 매칭하는 혁신적인 속도를 달성했다.
1.2 템플릿 매칭의 구조적 한계
LINEMOD는 산업 현장에서 널리 쓰일 만큼 성공적이었으나, 근본적인 한계 또한 명확했다. 가장 치명적인 약점은 가려짐(Occlusion)에 대한 취약성이었다. 전역적 템플릿 매칭 방식은 객체 전체의 형상을 하나의 템플릿으로 정의하기 때문에, 객체의 일부분이 다른 물체에 의해 가려질 경우 매칭 점수(Matching Score)가 급격히 하락하여 검출 실패로 이어지는 경향이 있었다. 또한, 조명 조건이 템플릿 생성 시점과 크게 다르거나 배경이 매우 복잡한(Cluttered) 환경에서는 오검출(False Positive)이 빈번하게 발생했다. 무엇보다 새로운 객체를 인식시키기 위해서는 정밀한 3D 모델링과 템플릿 생성 과정을 거쳐야 했기에 확장성에 제약이 있었다. 이러한 한계는 데이터로부터 특징을 스스로 학습하여 강건성을 확보하는 딥러닝 기반 방법론의 등장을 촉발하는 계기가 되었다.
2. 딥러닝과 직접 회귀의 도전 (Deep Learning and Direct Regression)
2012년 AlexNet의 등장 이후 합성곱 신경망(CNN)이 컴퓨터 비전의 주류로 부상하면서, 6D 포즈 추정 분야에서도 딥러닝을 적용하려는 시도가 시작되었다. 초기의 딥러닝 접근법은 입력 이미지를 받아 신경망이 객체의 6D 포즈 파라미터(3D 위치 및 회전)를 직접적인 수치로 출력(Regression)하도록 설계되었다. 이러한 ‘End-to-End’ 방식은 파이프라인을 단순화할 수 있다는 장점이 있었으나, 3차원 공간의 복잡성을 2차원 이미지로부터 직접 추론해야 한다는 난제에 직면했다.
2.1 PoseCNN: 의미론적 분할과 포즈 회귀의 결합
이 시기를 대표하는 가장 상징적인 연구는 NVIDIA의 Xiang 등이 제안한 PoseCNN이다. PoseCNN은 6D 포즈 추정 문제를 의미론적 분할(Semantic Segmentation)과 결합하여 해결하려 했으며, 특히 이동(Translation)과 회전(Rotation)을 추정하는 독창적인 구조를 제안했다.
1. 이동 추정의 분리(Decoupled Translation)와 허프 투표: 객체의 3D 위치 \mathbf{t} = (t_x, t_y, t_z)^T를 이미지로부터 직접 회귀하는 것은 매우 어렵다. 객체가 이미지 내 어디에 있든 동일한 형상으로 인식되어야 하는 CNN의 ‘이동 불변성(Translation Invariance)’ 특성이 3D 위치 추정에는 오히려 방해가 되기 때문이다. PoseCNN은 이 문제를 해결하기 위해 3D 위치 추정을 두 단계로 분리했다. 먼저, 이미지 평면 상에서 객체의 중심점 (c_x, c_y)를 찾고, 그 다음 카메라로부터의 거리(Depth) t_z를 추정하는 것이다. 특히 중심점을 찾기 위해 허프 투표(Hough Voting) 개념을 딥러닝에 도입했다. 네트워크의 한 분기(Branch)는 객체 내부의 각 픽셀마다 “객체 중심을 향하는 벡터“를 예측하도록 학습된다. 추론 시에는 이 벡터들이 가리키는 지점들에 투표를 하고, 가장 많은 표를 얻은 지점을 객체의 중심 픽셀로 결정한다. 이는 객체의 일부가 가려지더라도 보이는 부분들의 투표를 통해 중심을 유추할 수 있게 하여 가려짐에 대한 강건성을 높였다.
2. 쿼터니언 회귀와 ShapeMatch-Loss: 회전 추정을 위해 PoseCNN은 쿼터니언(Quaternion)을 출력하는 완전 연결 계층(Fully Connected Layer)을 사용했다. 여기서 중요한 기술적 기여는 ShapeMatch-Loss라는 새로운 손실 함수의 제안이다. 컵이나 캔과 같이 회전 대칭(Symmetric)인 물체는 서로 다른 회전 값을 가지더라도 시각적으로는 동일해 보일 수 있다. 일반적인 유클리디안 손실 함수(Euclidean Loss)를 사용할 경우, 네트워크는 시각적으로 동일한 입력에 대해 서로 다른 정답 값들 사이에서 혼란을 겪으며 평균값으로 수렴해버리는 문제가 발생한다. ShapeMatch-Loss는 3D 모델의 포인트 클라우드에 추정된 회전과 정답 회전을 각각 적용한 후, 두 포인트 클라우드 간의 가장 가까운 점들 사이의 거리(Chamfer Distance와 유사)를 최소화하는 방식으로 정의된다. 이는 회전 값 자체가 아니라 “회전된 객체의 형상“을 기준으로 오차를 측정함으로써 대칭성 문제를 기하학적으로 해결했다.
2.2 직접 회귀의 구조적 한계와 비선형성 문제
PoseCNN은 딥러닝 기반 포즈 추정의 가능성을 열었지만, 직접 회귀 방식의 한계 또한 명확히 드러냈다. 가장 큰 문제는 **회전 공간(SO(3))의 비선형성(Non-linearity)**이었다. 3차원 회전은 유클리디안 공간이 아닌 복잡한 매니폴드(Manifold) 구조를 가지므로, 신경망이 이를 선형적으로 근사하는 것은 매우 비효율적이다. 쿼터니언의 단위 벡터 제약 조건 등을 신경망이 완벽히 학습하기 어려워, 결과값이 종종 지역 최적점(Local Minima)에 빠지거나 정밀도가 떨어지는 현상이 발생했다. 또한, 2D 이미지 특징에서 3D 공간 정보를 직접 추출하는 과정에서 발생하는 정보 손실로 인해, 정교한 조작 작업에 필요한 수준의 정밀도를 확보하기 위해서는 ICP(Iterative Closest Point)와 같은 후처리 과정이 필수적이었다.
3. 중간 표현의 혁명: 키포인트 투표와 벡터 필드 (Intermediate Representations & Vector Fields)
직접 회귀 방식이 겪은 회전 공간의 비선형성 문제를 극복하기 위해, 연구자들은 문제를 다시 기하학적으로 재정의하기 시작했다. 신경망이 6D 포즈를 직접 출력하게 하는 대신, 2D 이미지 상의 키포인트(Keypoints) 좌표를 예측하게 하고, 이를 미리 알고 있는 3D 모델의 키포인트와 매칭하여 PnP(Perspective-n-Point) 알고리즘으로 포즈를 계산하는 ‘2단계(Two-stage)’ 접근법이 주류로 부상했다.
3.1 PVNet: 픽셀 단위 투표 네트워크 (Pixel-wise Voting Network)
이러한 흐름의 정점에서 가장 혁신적인 성과를 보여준 연구가 바로 PVNet이다. 기존의 키포인트 검출 방식(예: 히트맵 회귀)은 객체가 가려지거나 화면 밖으로 잘린(Truncation) 경우 키포인트가 보이지 않아 검출이 불가능하다는 단점이 있었다. PVNet은 이를 극복하기 위해 벡터 필드(Vector Field) 기반의 투표 메커니즘을 제안했다.
1. 조밀한 벡터 필드 학습 (Dense Vector Field Learning): PVNet은 객체에 속한 모든 픽셀이 해당 객체의 지정된 키포인트(예: 표면상의 8개 지점)를 향하는 단위 벡터(Unit Vector)를 예측하도록 학습된다. 즉, 객체의 일부분만 보이더라도, 그 보이는 영역의 수많은 픽셀들이 보이지 않는 키포인트의 위치를 손가락으로 가리키듯이 지시하게 된다. 이는 정보의 중복성(Redundancy)을 활용하여 가려짐에 대한 극강의 강건성을 확보하는 전략이다.
2. RANSAC 기반 투표와 불확실성 모델링: 예측된 벡터 필드만으로는 키포인트의 정확한 위치를 알 수 없으므로, PVNet은 RANSAC(Random Sample Consensus) 기반의 투표 알고리즘을 사용하여 키포인트 좌표를 결정한다. 임의의 두 픽셀을 선택하여 그 벡터들의 교차점을 가설(Hypothesis)로 설정하고, 다른 픽셀들이 이 가설을 얼마나 지지하는지 투표하는 방식이다. 이 과정에서 이상치(Outlier)는 자연스럽게 제거된다. 더 나아가, 투표 결과의 분포를 분석하여 각 키포인트 위치에 대한 **공간적 불확실성(Spatial Uncertainty, 공분산 행렬)**을 추정할 수 있다.
3. 불확실성을 고려한 PnP (Uncertainty-driven PnP): PVNet은 단순히 2D-3D 대응점만을 사용하여 PnP를 수행하는 것이 아니라, 앞서 구한 키포인트별 불확실성 정보를 가중치로 활용하는 EPnP(Efficient PnP) 알고리즘을 적용했다. 즉, 투표 결과가 퍼져 있어 불확실한 키포인트는 포즈 계산에서 신뢰도를 낮추고, 투표가 집중된 확실한 키포인트에 더 의존함으로써 최종 포즈의 정확도를 극대화했다. 실험 결과, PVNet은 LINEMOD 데이터셋의 가려짐(Occlusion) 테스트에서 기존 방법론 대비 월등한 성능 향상을 기록하며 기하학적 제약 조건의 중요성을 입증했다.
PVNet은 딥러닝이 모든 것을 해결하는 ’Black Box’가 아니라, 기하학적 알고리즘(PnP, RANSAC)과 결합될 때 더 강력한 성능을 발휘할 수 있음을 보여준 사례이다.
4. RGB-D 융합의 고도화: 픽셀 단위 융합 (Dense Fusion)
저가형 RGB-D 센서(Microsoft Kinect, Intel RealSense 등)의 보급은 깊이(Depth) 정보를 활용한 포즈 추정 연구를 가속화했다. 그러나 초기의 RGB-D 방식은 RGB 이미지와 깊이 이미지를 별도로 처리하거나(Late Fusion), 단순히 채널을 결합하여(Early Fusion) 사용하는 등 두 정보의 이질적인 특성을 충분히 반영하지 못했다. RGB는 색상과 텍스처 정보를, 깊이 정보는 기하학적 형상 정보를 담고 있으며 이 둘은 서로 다른 데이터 구조(Grid vs. Point Cloud)를 가진다.
4.1 DenseFusion: 이질적 데이터의 픽셀 단위 결합
Wang 등이 제안한 DenseFusion은 이러한 문제를 해결하기 위해 RGB 정보와 포인트 클라우드 정보를 픽셀 수준에서 개별적으로 처리한 뒤 융합하는 이질적 아키텍처를 선보였다.
1. 이질적 특징 추출 네트워크: DenseFusion은 RGB 이미지를 처리하기 위해 CNN 기반의 인코더-디코더 구조를 사용하여 픽셀별 색상 특징 임베딩(Color Embeddings)을 생성한다. 반면, 깊이 정보는 3D 포인트 클라우드로 변환된 후 PointNet 아키텍처를 통해 처리되어 각 포인트별 기하학적 특징 임베딩(Geometry Embeddings)을 생성한다. 이는 각 데이터 소스가 가진 고유한 위상 구조(Topological Structure)를 파괴하지 않고 최적의 특징을 추출하기 위함이다.
2. 픽셀 단위 조밀 융합 (Pixel-wise Dense Fusion): 추출된 색상 특징과 기하 특징은 픽셀(또는 포인트) 단위로 결합된다. RGB 이미지의 픽셀과 깊이 이미지의 포인트 간에는 투영 변환을 통한 1:1 대응 관계가 존재하므로, 이를 바탕으로 각 지점에서의 외관 정보와 형상 정보를 결합(Concatenation)한다. 융합된 특징은 전체 객체의 정보를 담은 전역적 특징(Global Feature)과 다시 한번 결합되어, 각 픽셀이 독립적으로 객체의 6D 포즈를 예측할 수 있게 한다.
3. 신뢰도 기반 포즈 추정과 반복적 정제: DenseFusion은 단순히 하나의 포즈를 출력하는 것이 아니라, 각 픽셀마다 포즈를 예측하고 그 예측의 신뢰도(Confidence Score)까지 함께 출력한다. 최종 포즈는 신뢰도가 높은 예측값들을 선정하여 결정된다. 또한, 네트워크 내부에 미분 가능한 형태의 반복적 정제(Iterative Refinement) 모듈을 통합하여, 초기 추정된 포즈를 바탕으로 포인트 클라우드를 변환하고 잔차(Residual)를 줄여나가는 과정을 학습했다. 이는 기존의 ICP 알고리즘을 딥러닝 방식으로 내재화한 것으로, 실시간 성능을 유지하면서도 로봇 조작이 가능한 수준의 정밀도를 달성했다.
5. 반복적 매칭과 ’Render-and-Compare’의 부활
딥러닝 초기에는 한 번의 추론으로 결과를 얻는 단일 패스(Single-shot) 방식이 선호되었으나, 인간이 물체를 자세히 볼 때 시선을 조정하며 인식을 구체화하듯, 반복적 정제(Iterative Refinement) 방식이 다시금 주목받기 시작했다. 이는 고전적인 ‘분석에 의한 합성(Analysis-by-Synthesis)’ 또는 ‘Render-and-Compare’ 전략의 현대적 재해석이다.
5.1 DeepIM: 딥러닝 기반 반복 매칭
DeepIM(Deep Iterative Matching)은 초기 포즈 추정값을 입력받아, 해당 포즈로 3D 모델을 렌더링한 이미지와 실제 관측 이미지를 비교하여 포즈 오차(\Delta \mathbf{P})를 예측하는 네트워크다.
1. 얽히지 않은 표현 (Untangled Representation): DeepIM의 핵심 기여 중 하나는 3D 회전과 이동을 분리하여(Untangled) 추정하는 방식이다. 회전과 이동은 서로 다른 스케일과 단위를 가지므로 이를 결합하여 학습하면 최적화가 어렵다. DeepIM은 카메라 좌표계가 아닌, 렌더링된 객체 중심 좌표계에서 상대적인 회전과 이동을 계산함으로써 학습의 안정성을 높였다. 구체적으로 회전은 쿼터니언 차이로, 이동은 3D 벡터 차이로 정의하여 반복적으로 오차를 줄여나간다.
2. 광류(Optical Flow)와 시각적 차이 학습: 렌더링된 이미지와 실제 이미지 사이의 차이는 시각적으로 광류(Optical Flow)와 유사한 패턴을 보인다. DeepIM은 FlowNetSimple과 유사한 아키텍처를 사용하여 두 이미지 채널을 입력받고, 픽셀 간의 대응 관계를 암묵적으로 학습한다. 또한, 마스크(Mask) 예측 분기를 두어 객체의 전경(Foreground) 영역에 집중하게 함으로써 배경의 영향을 최소화했다. 이 방식은 텍스처가 없는 객체라도 외곽선이나 내부의 음영 변화를 통해 정밀한 매칭을 가능하게 했으며, 기존 PoseCNN 등의 초기 추정 결과를 획기적으로 개선했다.
DeepIM의 성공은 ‘Coarse-to-Fine(거친 추정 후 정밀 정제)’ 전략이 6D 포즈 추정의 표준 파이프라인으로 자리 잡는 데 결정적인 역할을 했다. 이후 등장한 CosyPose나 MegaPose 등의 연구들도 이러한 반복적 정제 전략을 기본 골격으로 채택하고 있다.
6. 미지의 객체와 파운데이션 모델의 시대 (Novel Objects & Foundation Models)
최근 6D 포즈 추정 연구의 최전선은 **‘학습되지 않은 객체(Novel/Unseen Objects)’**에 대한 일반화 성능 확보로 이동하고 있다. 기존의 방식들(Instance-level methods)은 특정 객체(예: 특정 브랜드의 드릴)에 대해 데이터를 모으고 학습해야만 작동했으나, 실제 로봇이나 AR 환경에서는 수만 가지의 새로운 물체를 다루어야 한다. 이를 위해 거대 데이터와 파운데이션 모델(Foundation Model) 개념이 도입되고 있다.
6.1 MegaPose: 렌더링과 비교를 통한 제로샷 추정
MegaPose는 학습 단계에서 보지 못한 객체라도 3D CAD 모델만 주어진다면 포즈를 추정할 수 있는 ‘제로샷(Zero-shot)’ 또는 ‘카테고리 무관(Category-agnostic)’ 접근법을 제시했다.
1. 대규모 합성 데이터 학습: MegaPose는 ShapeNet, Google Scanned Objects 등 수천 개의 3D 모델을 포함한 대규모 합성 데이터셋(Million-scale)을 구축하여 네트워크를 학습시켰다. 이를 통해 네트워크는 특정 객체의 텍스처를 외우는 것이 아니라, 3D 형상과 2D 이미지 간의 기하학적 대응 관계를 일반화하여 학습하게 된다. 이는 마치 사람이 처음 보는 물건이라도 그 모양을 보고 손으로 집을 수 있는 것과 같은 원리다.
2. Coarse-to-Fine 분류 및 회귀: MegaPose는 먼저 객체의 대략적인 방향을 분류(Classification)하는 모듈을 통해 초기 포즈 가설들을 생성한다. 렌더링된 여러 뷰와 입력 이미지를 비교하여 가장 유사한 포즈를 선택하는 방식이다. 이후 선택된 포즈를 초기값으로 하여 Refiner 네트워크가 반복적으로 포즈를 수정한다. 이 모든 과정은 대상 객체에 대한 추가 학습(Retraining) 없이 수행된다.
6.2 FoundationPose: 언어 모델과 비전의 융합
가장 최신의 진화 형태인 FoundationPose는 통합된 파운데이션 모델로서, 모델 기반(Model-based) 및 모델 프리(Model-free) 설정을 모두 지원하며 추적(Tracking)까지 아우르는 프레임워크다.
1. LLM 기반 합성 데이터 생성 파이프라인: FoundationPose는 학습 데이터의 ‘Sim2Real(시뮬레이션에서 현실로의 전이)’ 격차를 줄이기 위해 혁신적인 데이터 생성 파이프라인을 도입했다. 거대 언어 모델(LLM)을 활용하여 객체의 종류에 맞는 다양한 텍스처, 재질, 조명 상황에 대한 텍스트 프롬프트(Prompt)를 생성하고, 이를 스테이블 디퓨전(Stable Diffusion)과 같은 생성형 AI에 입력하여 3D 모델에 입힐 사실적인 텍스처를 무한히 생성해냈다. 이는 단순히 데이터를 늘리는 것을 넘어, 데이터의 ’질적 다양성’을 폭발적으로 증가시켜 모델의 일반화 성능을 극대화했다.
2. 트랜스포머 기반 아키텍처와 점수 기반 선택: FoundationPose는 트랜스포머(Transformer) 아키텍처를 도입하여 이미지 내의 전역적인 문맥 정보를 처리하고, 대조 학습(Contrastive Learning)을 통해 객체의 고유한 특징 표현을 학습한다. 추론 시에는 여러 포즈 가설을 생성하고, 각 가설의 적합성을 평가하는 점수(Score) 기반 선택 모듈을 통해 가장 신뢰할 수 있는 포즈를 결정한다. 이는 텍스처가 없거나 반사 재질이 있는 난해한 객체에 대해서도 BOP(Benchmark for 6D Object Pose Estimation) 리더보드 1위를 기록하는 압도적인 성능으로 이어졌다.
7. 결론 및 요약
6D 물체 포즈 추정 기술은 기하학적 원리에 충실했던 템플릿 매칭 시대에서 시작하여, 딥러닝을 통한 데이터 주도적 학습 시대를 거쳐, 이제는 거대 모델과 생성형 AI를 융합한 파운데이션 모델 시대로 진화했다.
아래 [표 7.2.1]은 이러한 기술적 진화 과정을 주요 알고리즘별로 요약하여 비교한 것이다.
7.1 [표 7.2.1] 6D 포즈 추정 주요 알고리즘 비교 및 진화 요약
| 세대 | 대표 알고리즘 | 연도 | 핵심 접근법 (Methodology) | 기술적 기여 (Key Contributions) | 한계 및 극복 과제 |
|---|---|---|---|---|---|
| 1세대 | LINEMOD | 2012 | 템플릿 매칭 (Template Matching) | 그라디언트와 표면 법선의 멀티모달 융합, 선형화된 메모리로 CPU 실시간 처리 구현 | 가려짐(Occlusion)에 취약, 조명 변화 민감, 확장성 부족 |
| 2세대 | PoseCNN | 2017 | 직접 회귀 (Direct Regression) | 이동/회전 분리 추정, 허프 투표로 가려짐 대응, ShapeMatch-Loss로 대칭성 해결 | 회전 공간의 비선형성으로 인한 학습 난해, 정밀도 부족 |
| 3세대 | PVNet | 2019 | 키포인트 투표 (Keypoint Voting) | 픽셀별 벡터 필드 예측 및 RANSAC 투표, 불확실성 기반 PnP 적용 | 키포인트 정의 필요, 2단계 파이프라인의 복잡성 |
| 3.5세대 | DenseFusion | 2019 | RGB-D 융합 (Dense Fusion) | CNN(RGB)과 PointNet(Depth)의 이질적 결합, 픽셀 단위 융합 및 신뢰도 예측 | 깊이 센서 의존성(투명/반사 물체 한계) |
| 4세대 | DeepIM | 2018 | 반복 정제 (Iterative Refinement) | Render & Compare 방식, 얽히지 않은(Untangled) 회전/이동 표현, FlowNet 활용 | 초기 포즈 추정값 필요, 반복 연산 오버헤드 |
| 5세대 | FoundationPose | 2024 | 파운데이션 모델 (Foundation Model) | LLM 및 생성형 AI 기반 합성 데이터, 트랜스포머 아키텍처, 제로샷 일반화 | 높은 연산량 요구, 대규모 모델 추론 비용 |
이러한 진화의 흐름을 관통하는 핵심은 **“기하학적 본질의 재발견과 데이터의 확장”**이다. 초기 딥러닝은 기하학을 무시하고 데이터를 통해 모든 것을 해결하려 했으나(PoseCNN), 곧 벡터 필드나 픽셀 단위 융합과 같이 기하학적 구조를 신경망에 내재화하는 방향으로 선회했다(PVNet, DenseFusion). 그리고 현재는 이러한 기하학적 이해를 바탕으로, 인간의 언어적 지식과 생성 능력을 결합하여(FoundationPose) 로봇이 이전에 본 적 없는 물체까지도 능숙하게 다룰 수 있는 범용 인공지능(AGI)의 영역으로 나아가고 있다. 향후 연구는 더욱 동적인 환경에서의 강건한 추적, 투명하거나 변형 가능한(Deformable) 물체에 대한 대응, 그리고 로봇의 파지(Grasping) 계획과 결합된 종단간(End-to-End) 학습으로 확장될 것으로 전망된다.
8. 참고 자료
- 6D Object Pose Estimation - Emergent Mind, https://www.emergentmind.com/topics/object-6d-pose-estimation
- A Survey of 6DoF Object Pose Estimation Methods for Different Application Scenarios - NIH, https://pmc.ncbi.nlm.nih.gov/articles/PMC10893425/
- 6D Object Pose Estimation for Manipulation via Weak Supervision, https://www.ri.cmu.edu/app/uploads/2022/08/Chuer_Pan_MSR_Thesis_uploaded_version.pdf
- DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion - CVF Open Access, https://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_DenseFusion_6D_Object_Pose_Estimation_by_Iterative_Dense_Fusion_CVPR_2019_paper.pdf
- An Evaluation Review on 6D Pose Estimation Benchmark Dataset with RGB-based Appoaches - Stanford University, https://web.stanford.edu/class/cs231a/prev_projects_2022/CS231_Final_Project_Report_1.pdf
- DeepIM: Deep Iterative Matching for 6D Pose Estimation - Gu Wang, https://wangg12.github.io/paper/Li2019_IJCV_DeepIM.pdf
- An Improved Algorithm for Detection and Pose Estimation of Texture-Less Objects - Fuji Technology Press, https://www.fujipress.jp/main/wp-content/themes/Fujipress/phyosetsu.php?ppno=JACII002500020007
- Model Based Training, Detection and Pose Estimation of Texture-Less 3D Objects in Heavily Cluttered Scenes - Stefan HINTERSTOISSER, http://www.stefan-hinterstoisser.com/papers/hinterstoisser2012accv.pdf
- Learning to Estimate 3D Object Pose from Synthetic Data - mediaTUM, https://mediatum.ub.tum.de/doc/1550255/luwcgb7twcav8fzohxtsqg00v.Diss_Zakharov.pdf
- Gradient Response Maps for Real-Time Detection of Texture-Less Objects - Infoscience, https://infoscience.epfl.ch/bitstreams/89c82f40-406c-4553-b5ed-8f10c28a7280/download
- Gradient Response Maps for Real-Time Detection of Texture-Less Objects - Vincent Lepetit, https://vincentlepetit.github.io/files/papers/comp_hinterstoisser_pami12.pdf
- Templates for 3D Object Pose Estimation Revisited: Generalization to New Objects and Robustness to Occlusions - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2022/papers/Nguyen_Templates_for_3D_Object_Pose_Estimation_Revisited_Generalization_to_New_CVPR_2022_paper.pdf
- BOP: Benchmark for 6D Object Pose Estimation - CMP, https://cmp.felk.cvut.cz/~hodanto2/data/hodan2018bop_slides_eccv.pdf
- 6D Pose Estimation of Objects: Recent Technologies and Challenges - MDPI, https://www.mdpi.com/2076-3417/11/1/228
- Synthetic Dataset Generation Toolbox and Enhanced 6D Pose Estimation and Object Detection on YCB Objects - CS231n, https://cs231n.stanford.edu/2024/papers/synthetic-dataset-generation-toolbox-and-enhanced-6d-pose-estima.pdf
- ConvPoseCNN2: Prediction and Refinement of Dense 6D Object Poses - ais.uni-bonn.de, https://www.ais.uni-bonn.de/papers/CCIS_2022_Periyasamy.pdf
- [1711.00199] PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes - arXiv, https://arxiv.org/abs/1711.00199
- Reviewing 6D Pose Estimation: Model Strengths, Limitations, and Application Fields - MDPI, https://www.mdpi.com/2076-3417/15/6/3284
- GDR-Net: Geometry-Guided Direct Regression Network for Monocular 6D Object Pose Estimation - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2021/papers/Wang_GDR-Net_Geometry-Guided_Direct_Regression_Network_for_Monocular_6D_Object_Pose_CVPR_2021_paper.pdf
- End-to-End Implicit Object Pose Estimation - PMC - NIH, https://pmc.ncbi.nlm.nih.gov/articles/PMC11398108/
- PVNet: Pixel-Wise Voting Network for 6DoF Object Pose Estimation - IEEE Xplore, https://ieeexplore.ieee.org/document/9309178
- PVNet: Pixel-Wise Voting Network for 6DoF Pose Estimation - CVF Open Access, https://openaccess.thecvf.com/content_CVPR_2019/papers/Peng_PVNet_Pixel-Wise_Voting_Network_for_6DoF_Pose_Estimation_CVPR_2019_paper.pdf
- (PDF) PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation - ResearchGate, https://www.researchgate.net/publication/330035033_PVNet_Pixel-wise_Voting_Network_for_6DoF_Pose_Estimation
- The basic idea of PVNet. Given an input image (a), we predict vectors… - ResearchGate, https://www.researchgate.net/figure/The-basic-idea-of-PVNet-Given-an-input-image-a-we-predict-vectors-pointing-to_fig1_348033206
- PVNet: Pixel-wise Voting Network for 6DoF Object Pose Estimation - IEEE Xplore, https://ieeexplore.ieee.org/iel7/34/4359286/09309178.pdf
- [1812.11788] PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation - arXiv, https://arxiv.org/abs/1812.11788
- PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation | alphaXiv, https://www.alphaxiv.org/overview/1812.11788v1
- [1901.04780] DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion - arXiv, https://arxiv.org/abs/1901.04780
- DenseFusion-DA2: End-to-End Pose-Estimation Network Based on RGB-D Sensors and Multi-Channel Attention Mechanisms - NIH, https://pmc.ncbi.nlm.nih.gov/articles/PMC11511249/
- DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion - ME336 Collaborative Robot Learning, https://me336.ancorasir.com/wp-content/uploads/2024/05/24Spring-ME336-Team1-3rdPaperReview-PDF.pdf
- [1804.00175] DeepIM: Deep Iterative Matching for 6D Pose Estimation - arXiv, https://arxiv.org/abs/1804.00175
- DeepIM: Deep Iterative Matching for 6D Pose Estimation - CVF Open Access, https://openaccess.thecvf.com/content_ECCV_2018/papers/Yi_Li_DeepIM_Deep_Iterative_ECCV_2018_paper.pdf
- DeepIM: Deep Iterative Matching for 6D Pose Estimation | Request PDF - ResearchGate, https://www.researchgate.net/publication/386918482_DeepIM_Deep_Iterative_Matching_for_6D_Pose_Estimation
- DeepIM: Deep Iterative Matching for 6D Pose Estimation - Yu Xiang, https://yuxng.github.io/Papers/2018/yili_eccv18.pdf
- MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare | alphaXiv, https://www.alphaxiv.org/overview/2212.06870v1
- MegaPose, https://megapose6d.github.io/
- Code for “MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare”, CoRL 2022. - GitHub, https://github.com/megapose6d/megapose6d
- MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare - Proceedings of Machine Learning Research, https://proceedings.mlr.press/v205/labbe23a/labbe23a.pdf
- FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects - IEEE Xplore, https://ieeexplore.ieee.org/iel8/10654794/10654797/10655554.pdf
- FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects - NVlabs, https://nvlabs.github.io/FoundationPose/
- FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects - arXiv, https://arxiv.org/html/2312.08344v2
- FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2024/papers/Wen_FoundationPose_Unified_6D_Pose_Estimation_and_Tracking_of_Novel_Objects_CVPR_2024_paper.pdf
- FoundationPose is a unified foundation model for 6D object pose estimation and tracking of objects. - NVIDIA NGC Catalog, https://catalog.ngc.nvidia.com/orgs/nvidia/teams/isaac/models/foundationpose