7.2.3 고밀도 대응점(Dense Correspondence)과 좌표 회귀: 표면 매핑을 통한 정밀 추정

1. 서론: 6D 자세 추정의 새로운 지평, 고밀도 대응점

현대 컴퓨터 비전과 로봇 공학의 교차점에서 물체의 6차원 자세(6D Pose)—3차원 공간상의 위치(Translation)와 방향(Rotation)—를 정확히 파악하는 것은 로봇 매니퓰레이션(Robotic Manipulation), 자율 주행, 증강 현실(AR)과 같은 핵심 응용 분야의 성패를 좌우하는 기술적 난제이다. 앞선 7.2.1절과 7.2.2절에서 우리는 전통적인 템플릿 매칭 방식과 희소 특징점(Sparse Keypoint) 기반의 접근법들을 살펴보았다. SIFT(Scale-Invariant Feature Transform)나 SURF와 같은 핸드크래프트(Hand-crafted) 특징점들은 텍스처가 풍부한 객체에 대해서는 훌륭한 성능을 보였으나, 산업 현장의 부품이나 가정용품과 같이 텍스처가 없거나(Texture-less) 단조로운 색상의 객체 앞에서는 무력해지는 한계를 드러냈다. 또한, 딥러닝 기반의 키포인트 검출 방식(예: PVNet)이 등장하여 이러한 문제를 일부 완화하였으나, 여전히 객체의 주요 특징점이 가려지거나(Occluded) 검출기가 불안정한 상황에서는 자세 추정의 정확도가 급격히 하락하는 취약점을 안고 있다.

이러한 배경 속에서 고밀도 대응점(Dense Correspondence) 기반의 접근법은 6D 자세 추정의 패러다임을 근본적으로 전환시켰다. 이 방법론의 핵심은 이미지 내의 ‘일부’ 특징점이 아닌, 객체 영역에 속하는 ‘모든’ 픽셀을 활용한다는 점에 있다. 즉, 입력 이미지의 각 픽셀에 대해 그에 상응하는 3D 객체 모델 표면상의 좌표(3D Coordinate)나 텍스처 좌표(UV Coordinate)를 픽셀 단위(Pixel-wise)로 회귀(Regression)하는 것이다.

이 접근법은 정보의 양과 질적인 측면에서 기존 방식과 차원을 달리한다. 수천, 수만 개의 픽셀이 각각 3D 공간 정보를 예측함으로써, 일부 영역이 가려지거나 조명 변화로 인해 국소적인 오차가 발생하더라도 전체적인 자세 추정의 강건성(Robustness) 을 극복적으로 향상시킬 수 있다. 이는 마치 수많은 증인에게 범인의 인상착의를 묻는 것과 같아서, 소수의 증인이 착각하더라도 대다수의 증언을 통해 진실을 파악할 수 있는 원리와 유사하다.

본 장에서는 고밀도 좌표 회귀의 이론적 배경부터 시작하여, 이 분야를 선도하는 핵심 알고리즘인 Pix2Pose, CDPN(Coordinates-Based Disentangled Pose Network), DPOD(Dense Pose Object Detector) 의 아키텍처와 작동 원리를 심층적으로 분석한다. 특히, 각 방법론이 어떻게 폐색(Occlusion), 대칭성(Symmetry), 그리고 텍스처 부재 문제를 해결하는지, 그리고 PnP(Perspective-n-Point) 알고리즘과 결합하여 어떻게 최종적인 6D 자세를 도출해내는지에 대한 기술적 메커니즘을 상세히 기술할 것이다.

2. 고밀도 대응점의 이론적 토대와 PnP 알고리즘

2.1 희소성에서 고밀도로의 전환 (From Sparse to Dense)

고밀도 대응점 방식의 의의를 이해하기 위해서는 희소 특징점 방식이 가지는 근본적인 제약을 재확인할 필요가 있다. 희소 특징점 방식은 이미지 $I$ 에서 $N$ 개의 특징점 $\{k_i\}_{i=1}^N$ 을 추출하고, 이를 3D 모델 $M$ 의 특징점 $\{P_i\}_{i=1}^N$ 과 매칭한다. 이때 $N$ 은 보통 수십에서 수백 개 수준이다. 그러나 객체의 절반이 다른 물체에 의해 가려진다면, 사용 가능한 특징점의 개수는 $N/2$ 이하로 줄어들며, 만약 가려진 부분이 특징점이 밀집된 영역이라면 자세 추정 자체가 불가능해질 수 있다.

반면, 고밀도 방식은 객체 마스크 내의 모든 픽셀 $p \in \Omega$ 에 대해 매핑 함수 $f: \Omega \rightarrow \mathbb{R}^3$ 를 학습한다. 여기서 $\Omega$ 는 이미지 내 객체 영역이며, 출력 공간 $\mathbb{R}^3$ 는 객체 좌표계(Object Coordinate System) 상의 3D 좌표 $(x, y, z)$ 이다. $640 \times 480$ 이미지에서 객체가 차지하는 영역이 $100 \times 100$ 픽셀만 되어도, 우리는 10,000개의 대응점 쌍(Correspondence Pairs)을 얻게 된다. 이는 수학적으로 과결정 시스템(Over-determined System) 을 구성하게 하여, 노이즈에 대한 저항력을 극대화한다.

2.2 PnP(Perspective-n-Point) 문제와 RANSAC의 결합

고밀도 좌표 회귀 네트워크가 2D 이미지 픽셀 $p_{2d} = (u, v)$ 와 이에 대응하는 3D 모델 좌표 $P_{3d} = (x, y, z)$ 의 쌍을 생성해내면, 남은 과제는 이 대응 관계를 만족하는 카메라의 자세 $$를 찾는 것이다. 이를 PnP(Perspective-n-Point) 문제라고 한다.

카메라 내부 파라미터(Intrinsic Parameters) $K$ 가 주어졌을 때, 3D 점 $P_{3d}$ 는 다음과 같은 투영 식을 통해 2D 픽셀 $p_{2d}$ 로 변환된다.
$s \begin{bmatrix} u \\ v \\ 1 \end{bmatrix} = K \begin{bmatrix} x \\ y \\ z \\ 1 \end{bmatrix}$
여기서 $s$ 는 스케일 계수(깊이)이다. 고밀도 방식에서는 수천 개의 대응점이 존재하므로, 일반적으로 EPnP(Efficient PnP) 와 같은 알고리즘을 사용하여 초기 해를 구한 뒤, Levenberg-Marquardt 알고리즘과 같은 비선형 최적화를 통해 재투영 오차(Reprojection Error)를 최소화하는 해를 찾는다.
$\min_{R, T} \sum_{i} \| p_{2d}^i - \pi(K, R, T, P_{3d}^i) \|^2$
하지만 네트워크의 예측값에는 필연적으로 오차(Outlier)가 포함된다. 특히 객체의 경계 부분이나 반사가 심한 영역에서는 3D 좌표 예측이 크게 빗나갈 수 있다. 이를 걸러내기 위해 RANSAC(Random Sample Consensus) 알고리즘이 필수적으로 결합된다. RANSAC은 전체 대응점 집합에서 무작위로 최소한의 샘플(PnP의 경우 보통 4개)을 뽑아 가설(Hypothesis) 자세를 수립하고, 이 가설이 나머지 전체 데이터와 얼마나 일치하는지(Inlier count)를 검사한다. 고밀도 방식에서는 데이터 포인트가 많기 때문에 RANSAC의 반복 횟수를 적절히 조절하여 계산 효율성과 정확도 사이의 균형을 맞추는 것이 중요하다.

3. 픽셀 단위 3D 좌표 회귀: Pix2Pose 심층 분석

Pix2Pose 는 텍스처가 없는 객체의 6D 자세 추정 문제를 해결하기 위해 제안된 혁신적인 아키텍처로, 입력 이미지의 각 픽셀에 대해 3D 좌표를 직접 회귀하는 방식을 채택했다. 이 연구는 단순히 좌표를 예측하는 것을 넘어, 가려짐(Occlusion) 과 대칭성(Symmetry) 이라는 두 가지 난제를 해결하기 위해 오토인코더 구조와 트랜스포머 손실(Transformer Loss)이라는 독창적인 기법을 도입했다.

3.1 오토인코더(Auto-encoder) 아키텍처와 GAN 기반 학습

Pix2Pose의 네트워크 구조는 기본적으로 오토인코더 형태를 띤다.

인코더(Encoder): 입력된 객체의 ROI(Region of Interest) 이미지를 받아 점진적으로 공간 해상도를 줄이면서 고차원 특징(Feature)을 추출한다. 4개의 컨볼루션 블록으로 구성되며, 각 블록은 필터 수를 늘려가며 객체의 추상적인 형상 정보를 포착한다.
디코더(Decoder): 인코더의 역순으로 구성되어 특징 맵을 다시 원본 해상도로 복원한다. 여기서 주목할 점은 스킵 연결(Skip Connection) 의 활용이다. U-Net 구조와 유사하게, 인코더의 초기 레이어에서 추출된 저수준 특징(Edge, Texture 등)을 디코더의 대응 레이어에 직접 전달함으로써, 3D 좌표 맵의 경계가 뭉개지지 않고 선명하게 유지되도록 한다.

Pix2Pose는 학습 과정에서 GAN(Generative Adversarial Networks) 의 원리를 차용한다. 단순히 3D 좌표값의 L1 손실(Loss)만을 최소화하는 것이 아니라, 생성된 3D 좌표 맵이 ‘실제’ 3D 좌표 맵과 구분할 수 없을 정도로 자연스러워지도록 유도하는 판별자(Discriminator)를 함께 학습시킨다. 이는 특히 폐색(Occlusion) 상황에서 빛을 발한다. 객체의 일부가 다른 물체에 가려져 있더라도, 네트워크는 학습된 객체의 형상적 사전 지식(Shape Prior)을 바탕으로 가려진 부분의 3D 좌표까지 ’상상’하여 복원(In-painting)해낸다. 즉, 네트워크는 보이는 픽셀뿐만 아니라 보이지 않는 픽셀에 대해서도 완전한 3D 형상을 추론하도록 훈련된다.

3.2 대칭성 해결을 위한 트랜스포머 손실(Transformer Loss)

대칭 객체(Symmetric Object)는 6D 자세 추정에서 고질적인 문제를 야기한다. 예를 들어, 무늬 없는 원형 접시는 360도 어떤 각도에서 보아도 시각적으로 동일하다. 만약 네트워크가 특정 각도(예: 0도)를 정답으로 학습하려 한다면, 시각적으로 동일한 다른 각도(예: 180도)의 입력에 대해서도 0도로 예측해야 하는 모순에 빠지게 된다. 이는 네트워크가 여러 가능한 정답들의 ’평균’을 예측하게 만들어, 결과적으로 3D 좌표 예측이 엉망이 되는 결과를 초래한다.

Pix2Pose는 이를 해결하기 위해 트랜스포머 손실(Transformer Loss) 을 제안했다. 이 손실 함수는 학습 시, 현재 예측된 3D 좌표 분포가 가능한 모든 대칭 자세(Symmetric Poses) 중 어떤 것과 가장 잘 부합하는지를 동적으로 판단한다.
$L_{3D} = \min_{R_{sym} \in \mathcal{S}} \| \hat{I}_{3D} - R_{sym} \cdot I_{GT} \|_1$
여기서 $\mathcal{S}$ 는 해당 객체의 대칭 변환 그룹(Symmetry Group)이다. 이 수식의 의미는 “네트워크야, 정답과 똑같이 맞추려고 애쓰지 말고, 정답을 대칭 변환한 것들 중에서 네가 예측한 것과 가장 가까운 것을 목표로 삼으렴“이라는 것이다. 이를 통해 네트워크는 불필요한 혼란 없이 일관된 3D 좌표를 학습할 수 있게 되며, 대칭 객체에 대해서도 날카롭고 정확한 좌표 예측이 가능해진다.

3.3 오차 맵(Error Map)을 통한 이상치 제어

Pix2Pose는 3D 좌표 맵( $I_{3D}$ )과 함께 오차 맵(Error Map, $I_e$ ) 을 동시에 출력한다. $I_e$ 의 각 픽셀 값은 해당 픽셀의 3D 좌표 예측이 얼마나 불확실한지를 나타내는 척도이다.

추론(Inference) 단계에서 이 오차 맵은 PnP + RANSAC 과정의 효율성을 높이는 데 결정적인 역할을 한다. 무작위로 픽셀을 샘플링하는 대신, 오차 예측값이 낮은(신뢰도가 높은) 픽셀들을 우선적으로 선택하거나 가중치를 부여함으로써, RANSAC이 올바른 자세 가설(Hypothesis)을 찾을 확률을 높인다. 이는 폐색이 심한 영역이나 객체의 경계선 등 예측이 불안정한 영역을 사전에 배제하는 효과를 가져온다.

4. 좌표 기반 분리형 포즈 네트워크: CDPN의 정밀 추정 전략

CDPN(Coordinates-Based Disentangled Pose Network) 은 6D 자세 추정의 두 축인 회전(Rotation)과 병진(Translation)이 근본적으로 다른 성격을 가지고 있다는 통찰에서 출발한다. 이들은 회전과 병진을 분리(Disentangle) 하여 각각에 최적화된 방식으로 추정하는 하이브리드 접근법을 제시하였다.

4.1 회전과 병진의 분리(Disentanglement) 철학

기존의 6D 자세 추정 방법들은 크게 두 가지 흐름으로 나뉘어 있었다.

간접적 방법 (Indirect/PnP-based): 2D-3D 대응점을 찾고 PnP로 회전과 병진을 모두 구한다.
직접적 방법 (Direct Regression): 이미지에서 CNN을 통해 회전 쿼터니언(Quaternion)과 병진 벡터를 직접 실수값으로 출력한다.

CDPN 연구진은 이 두 방식의 장단점을 분석했다. 회전은 객체의 3D 형상이 2D로 투영되는 기하학적 관계에 의존하므로, 고밀도 대응점을 통한 PnP 방식이 압도적으로 정확하다. 반면, 병진(특히 깊이 $T_z$ ) 은 PnP 방식에서 매우 취약하다. 2D 픽셀의 미세한 오차가 3D 공간상의 깊이 추정에는 거대한 오차로 증폭되기 때문이다. 그러나 이미지 상에서 객체의 겉보기 크기(Scale)와 위치는 병진 벡터와 직접적인 상관관계가 매우 높다.

따라서 CDPN은 “회전은 좌표 회귀로(Indirect), 병진은 이미지 직접 회귀로(Direct)” 해결하는 이원화된 아키텍처를 설계했다.

4.2 회전 추정: 마스크 좌표-신뢰도 손실(MCC Loss)

회전을 추정하기 위해 CDPN은 Pix2Pose와 유사하게 픽셀별 3D 좌표를 예측한다. 그러나 손실 함수 설계에서 더욱 정교한 MCC Loss(Masked Coordinates-Confidence Loss) 를 도입했다.
$L_{MCC} = \alpha \sum_{j=1}^{3} \| M_{conf} \odot (M_{coor}^j - M_{GT}^j) \|_1 + \beta \| M_{conf} - M_{conf\_GT} \|_1$
이 수식에서 주목할 점은 신뢰도 맵( $M_{conf}$ ) 이 좌표 오차( $M_{coor} - M_{GT}$ )의 가중치(Weight)로 작용한다는 것이다 ( $\odot$ 는 요소별 곱).

배경 마스킹(Masking): 배경 픽셀은 3D 좌표가 정의되지 않으므로, 손실 계산에서 아예 제외시킨다. 이는 네트워크가 배경의 노이즈에 과적합되는 것을 막는다.
신뢰도 가중: 객체 내부에서도 텍스처가 없거나 반사가 심해 좌표 추정이 어려운 영역은 네트워크가 낮은 신뢰도를 예측하도록 유도된다. 신뢰도가 낮으면 좌표 오차에 대한 페널티가 줄어들기 때문에, 네트워크는 억지로 틀린 좌표를 맞추려다 전체 학습이 불안정해지는 현상을 피할 수 있다. 결과적으로, 신뢰도가 높은 영역(주로 에지나 특징적인 부분)에서의 좌표 정확도가 더욱 정밀해진다.

4.3 병진 추정: 스케일 불변 병진 추정(SITE)

CDPN의 병진 추정 모듈은 SITE(Scale-Invariant Translation Estimation) 라 불린다. 앞서 언급했듯, 객체 검출기(Detector)가 잘라낸 ROI 이미지는 원본 이미지에서의 절대적인 크기 정보를 잃어버릴 수 있다. 줌인(Zoom-in) 과정에서 스케일 정보가 왜곡되기 때문이다.

SITE는 이를 보정하기 위해 ROI 이미지뿐만 아니라, 원본 이미지에서 ROI가 차지했던 위치( $c_x, c_y$ )와 크기( $w, h$ ) 정보를 네트워크에 함께 주입하거나, 이를 고려하여 병진 벡터를 추정한다. 구체적으로는 병진 벡터 $T = (T_x, T_y, T_z)$ 를 이미지 중심으로부터의 오프셋 $(\Delta u, \Delta v)$ 과 기준 깊이 비율 $\Delta z$ 로 분해하여 학습한다. 이를 통해 카메라와의 거리가 변하거나 줌 레벨이 바뀌어도 일관성 있는 병진 추정이 가능해진다.

4.4 동적 줌인(Dynamic Zoom In, DZI) 전략

고밀도 좌표 회귀 방식의 숨겨진 아킬레스건은 ’입력 ROI의 품질’이다. 앞단의 객체 검출기가 객체를 너무 작게 잡거나 중심을 벗어나게 잡으면, 좌표 회귀 네트워크는 엉뚱한 입력을 받게 되어 성능이 급락한다.

CDPN은 이를 해결하기 위해 학습 데이터에 동적 줌인(Dynamic Zoom In, DZI) 이라는 강력한 데이터 증강(Data Augmentation) 기법을 적용한다. 학습 시 정답 바운딩 박스(Ground Truth Bounding Box)를 그대로 사용하지 않고, 무작위로 위치를 이동시키거나(Shift), 크기를 조절하고(Scale), 종횡비(Aspect Ratio)를 비틀어서 입력을 생성한다. 이 과정은 마치 실제 테스트 환경에서 불완전한 객체 검출기가 생성할 법한 다양한 ‘나쁜’ 입력들을 시뮬레이션하는 것과 같다. DZI를 통해 훈련된 네트워크는 검출기가 실수를 하더라도, 혹은 객체가 이미지의 구석에 있더라도 흔들리지 않고 강건하게(Robust) 좌표를 추정할 수 있는 능력을 갖추게 된다. 실험 결과, DZI는 검출기 의존성을 획기적으로 낮추고 전체 자세 추정 성능을 크게 향상시키는 것으로 나타났다.

5. 표면 매핑을 통한 정밀화: DPOD 아키텍처

DPOD(Dense Pose Object Detector) 는 3D 좌표 $(x, y, z)$ 대신 UV 텍스처 좌표(UV Texture Coordinates) 를 회귀하는 독특한 접근 방식을 취한다. 이는 3D 기하학을 2D 매니폴드(Manifold)로 해석하려는 시도이다.

5.1 UV 매핑(Surface Mapping)의 기하학적 우위

UV 매핑은 복잡한 3D 모델의 표면을 2D 평면 $(u, v)$ 로 펼쳐놓은 것이다(마치 세계지도처럼). DPOD 네트워크는 입력 이미지의 각 픽셀에 대해 이 $(u, v)$ 좌표를 예측한다.

표면 제약(Surface Constraint)의 내재화: $(x, y, z)$ 를 직접 예측하는 방식은 네트워크가 객체 내부나 허공에 떠 있는 점을 예측할 위험이 있다. 그러나 UV 좌표를 예측하면, 그 결과값은 정의상 항상 객체 표면 위에 존재함이 수학적으로 보장된다. 이는 불필요한 탐색 공간(Search Space)을 줄이고 학습의 수렴 속도를 높이는 효과가 있다.
연속성과 불연속성: UV 맵은 표면의 연속성을 잘 나타내지만, 맵이 끊어지는 이음새(Seam) 부분이 존재한다. DPOD는 이를 처리하기 위해 구형 매핑이나 원통형 매핑 등 객체 형상에 적합한 매핑 방식을 선택하거나, 이음새 부분의 불연속성을 완화하는 손실 함수를 사용한다.

5.2 딥러닝 기반의 포즈 정밀화(Pose Refinement)

DPOD의 또 다른 강력한 무기는 초기 PnP로 추정된 자세를 한 번 더 다듬는 정밀화(Refinement) 모듈이다. 초기 자세가 추정되면, 이를 바탕으로 3D 모델을 렌더링(Rendering)하여 현재 입력 이미지와 비교한다. DPOD의 정밀화 네트워크는 입력 이미지와 렌더링된 이미지의 차이(Residual)를 분석하여 자세의 미세한 보정값( $\Delta R, \Delta T$ )을 예측한다. 이 과정은 딥러닝 버전의 반복적 최적화(Iterative Optimization)와 같으며, 기존의 ICP(Iterative Closest Point) 알고리즘보다 훨씬 빠르고 강력하게 동작하여 픽셀 수준의 완벽한 정렬을 수행한다.

6. 비교 분석 및 종합적 고찰

지금까지 살펴본 고밀도 좌표 회귀 방식들을 비교 분석하고, 기존 희소 특징점 방식과의 차별성을 표를 통해 정리한다.

6.1 고밀도(Dense) vs. 희소(Sparse) 접근법 비교

비교 항목	희소 특징점 (Keypoint-based)	고밀도 대응점 (Dense Correspondence)
기본 원리	소수의 정의된 점(코너 등) 검출 및 매칭	모든 픽셀에 대해 3D 좌표/UV 좌표 회귀
정보량	적음 ( $N < 100$ )	매우 많음 ( $N > 10,000$ )
폐색(Occlusion)	주요 특징점이 가려지면 실패 확률 높음	가려지지 않은 표면 정보로 복구 가능 (매우 강건함)
텍스처(Texture)	텍스처가 풍부해야 유리 (SIFT 등)	텍스처가 없어도 형상(Shape) 정보로 추론 가능
계산 비용	상대적으로 낮음 (PnP 속도 빠름)	높음 (픽셀별 연산 및 대규모 PnP 필요)
대표 모델	PVNet, Pix2Pose(Keypoint 모드)	Pix2Pose(Dense), CDPN, DPOD

[표 7.2.3-1] 희소 특징점 방식과 고밀도 대응점 방식의 특성 비교.

고밀도 방식은 계산 비용이 높다는 단점이 있지만, 폐색과 텍스처 부재라는 극한 상황에서의 생존력(Survivability)이 월등히 높다. 이는 로봇이 복잡하게 쌓여 있는 물건을 집어 올리는 ’빈 피킹(Bin Picking)’과 같은 작업에서 필수적인 요소이다.

6.2 모델별 특성 및 성능 요약

모델명	Pix2Pose	CDPN	DPOD
핵심 철학	가림 복원(In-painting) & 대칭 해결	회전/병진의 분리(Disentanglement)	표면 매핑(UV) & 반복 정밀화
좌표 표현	3D Coordinates $(x, y, z)$	3D Coordinates $(x, y, z)$	UV Texture Coordinates $(u, v)$
손실 함수	Transformer Loss, GAN Loss	MCC Loss (Confidence-weighted)	UV Regression Loss
병진 추정	PnP + RANSAC	SITE (Direct Regression)	PnP + Refinement
강건성 기법	GAN 기반 오차 복원	DZI (Dynamic Zoom In)	Deep Pose Refiner

[표 7.2.3-2] 주요 고밀도 좌표 회귀 모델(Pix2Pose, CDPN, DPOD)의 기술적 특징 비교.

6.3 3차원 좌표 회귀의 데이터 의존성 문제

이러한 고밀도 방식의 가장 큰 난관은 학습 데이터이다. 실제 이미지의 모든 픽셀에 대해 정확한 3D 좌표 정답(Ground Truth)을 얻는 것은 현실적으로 불가능에 가깝다. 따라서 대부분의 연구는 3D 모델을 렌더링한 합성 데이터(Synthetic Data) 에 의존한다. 그러나 합성 데이터와 실제 데이터 사이에는 색감, 조명, 노이즈 등의 차이인 도메인 갭(Domain Gap) 이 존재한다.

이를 극복하기 위해 Pix2Pose는 GAN을 통해 도메인 적응을 시도했고, CDPN은 DZI를 통해 기하학적 변형에 대한 내성을 키웠다. 최근에는 실제 배경 위에 렌더링된 객체를 합성하는 ‘Cut-and-Paste’ 기법이나, 물리 기반 렌더링(PBR)을 활용하여 도메인 갭을 최소화하려는 노력이 계속되고 있다.

7. 결론 및 향후 전망: 미분 가능한 기하학으로의 진화

제7.2.3절에서는 6D 자세 추정의 정점이라 할 수 있는 고밀도 대응점 및 좌표 회귀 기술을 심도 있게 다루었다. 픽셀 하나하나가 3D 공간을 가리키는 나침반이 되어, PnP 알고리즘이라는 강력한 기하학적 해석기와 결합함으로써 우리는 텍스처가 없는 매끄러운 물체나 다른 물체에 가려진 난해한 상황에서도 정밀한 자세를 추정할 수 있게 되었다.

Pix2Pose는 오토인코더와 트랜스포머 손실을 통해 대칭성과 폐색 문제를 우아하게 해결했다.
CDPN은 회전과 병진을 분리하고 스케일 불변성을 확보함으로써, 특히 깊이 방향의 추정 정확도를 획기적으로 개선했다.
DPOD는 UV 매핑을 통해 표면 제약을 내재화하고 정밀화 모듈을 통해 픽셀 단위의 완벽함을 추구했다.

향후 기술 전망: 현재 이 분야의 연구는 미분 가능한 PnP(Differentiable PnP) 로 나아가고 있다. 기존에는 좌표 회귀(딥러닝)와 PnP(수학적 최적화)가 분리되어 있었으나, EPro-PnP 와 같은 최신 연구들은 PnP 과정 자체를 미분 가능한 레이어로 구현하여, 최종 자세 오차를 픽셀 단위 좌표 예측 네트워크까지 역전파(Backpropagation)할 수 있는 End-to-End 학습 체계를 구축하고 있다. 또한, RGB 정보뿐만 아니라 깊이(Depth) 정보를 픽셀 단위로 융합하는 DenseFusion 과 같은 멀티 모달(Multi-modal) 접근법이나, 3D CAD 모델 없이도 범주(Category) 수준의 자세를 추정하는 NOCS(Normalized Object Coordinate Space) 분야로의 확장이 가속화되고 있다.

고밀도 대응점 기술은 단순한 ’인식’을 넘어 로봇이 세상과 물리적으로 ’상호작용’할 수 있게 만드는 가장 확실하고 정밀한 눈(Eye)이 되어주고 있다.

참고 자료

A Survey of 6DoF Object Pose Estimation Methods for Different Application Scenarios - NIH, 1월 29, 2026에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC10893425/
CDPN: Coordinates-Based Disentangled Pose Network for Real-Time RGB-Based 6-DoF Object Pose Estimation - ResearchGate, 1월 29, 2026에 액세스, https://www.researchgate.net/publication/337049832_CDPN_Coordinates-Based_Disentangled_Pose_Network_for_Real-Time_RGB-Based_6-DoF_Object_Pose_Estimation
RDPN6D: Residual-based Dense Point-wise Network for 6Dof Object Pose Estimation Based on RGB-D Images - arXiv, 1월 29, 2026에 액세스, https://arxiv.org/html/2405.08483v1
[1902.11020] DPOD: 6D Pose Object Detector and Refiner - ar5iv - arXiv, 1월 29, 2026에 액세스, https://ar5iv.labs.arxiv.org/html/1902.11020
Pix2Pose: Pixel-Wise Coordinate Regression of … - CVF Open Access, 1월 29, 2026에 액세스, https://openaccess.thecvf.com/content_ICCV_2019/papers/Park_Pix2Pose_Pixel-Wise_Coordinate_Regression_of_Objects_for_6D_Pose_Estimation_ICCV_2019_paper.pdf
Reviewing 6D Pose Estimation: Model Strengths, Limitations, and Application Fields - MDPI, 1월 29, 2026에 액세스, https://www.mdpi.com/2076-3417/15/6/3284
Pix2Pose: Pixel-Wise Coordinate Regression of Objects for 6D Pose Estimation - Liner, 1월 29, 2026에 액세스, https://liner.com/review/pix2pose-pixelwise-coordinate-regression-objects-for-6d-pose-estimation
2019 - CDPN - Coordinates-Based Disentangled Pose Network For Real-Time RGB-Based 6-DoF Object Pose Estimation | PDF | Image Segmentation - Scribd, 1월 29, 2026에 액세스, https://www.scribd.com/document/964966304/2019-CDPN-Coordinates-Based-Disentangled-Pose-Network-for-Real-Time-RGB-Based-6-DoF-Object-Pose-Estimation
CDPN: Coordinates-Based Disentangled Pose Network for Real-Time RGB-Based 6-DoF Object Pose Estimation - CVF Open Access, 1월 29, 2026에 액세스, https://openaccess.thecvf.com/content_ICCV_2019/papers/Li_CDPN_Coordinates-Based_Disentangled_Pose_Network_for_Real-Time_RGB-Based_6-DoF_Object_ICCV_2019_paper.pdf
6 DoF Pose Estimation of Known and Novel Objects With Dense Correspondences - mediaTUM, 1월 29, 2026에 액세스, https://mediatum.ub.tum.de/doc/1688159/bzq62xsn2axmim43mazffj4tb.Ivan%20Shugurov%20final.pdf
DPOD: 6D Pose Object Detector and Refiner - CVF Open Access, 1월 29, 2026에 액세스, https://openaccess.thecvf.com/content_ICCV_2019/papers/Zakharov_DPOD_6D_Pose_Object_Detector_and_Refiner_ICCV_2019_paper.pdf
A Feature-Enhancement 6D Pose Estimation Method for Weakly Textured and Occluded Targets - MDPI, 1월 29, 2026에 액세스, https://www.mdpi.com/2079-9292/14/20/4125
A Survey of 6DoF Object Pose Estimation Methods for Different Application Scenarios, 1월 29, 2026에 액세스, https://www.mdpi.com/1424-8220/24/4/1076
End-to-End Probabilistic Geometry-Guided Regression for 6DoF Object Pose Estimation, 1월 29, 2026에 액세스, https://arxiv.org/html/2409.11819v1
arXiv:2203.13254v4 [cs.CV] 11 Aug 2022, 1월 29, 2026에 액세스, http://arxiv.org/pdf/2203.13254
DLTPose: 6DoF Pose Estimation From Accurate Dense Surface Point Estimates - arXiv, 1월 29, 2026에 액세스, https://arxiv.org/html/2504.07335v2
Occlusion-Robust and Efficient 6D Pose Estimation with Scene-Level Segmentation Refinement and 3D Partial-to-6D Full Point Cloud - SciTePress, 1월 29, 2026에 액세스, https://www.scitepress.org/Papers/2024/124577/124577.pdf