SuperGlue 그래프 신경망과 최적 수송 이론을 통한 특징점 매칭

1. 서론

1.1 특징점 매칭의 중요성 및 핵심 과제

컴퓨터 비전 분야에서 특징점 매칭(feature matching)은 두 개 이상의 이미지에서 동일한 물리적 지점을 식별하고 대응시키는 근본적인 기술이다.1 이는 3차원 재구성(3D Reconstruction), 증강 현실(Augmented Reality, AR), 로보틱스의 동시적 위치추정 및 지도작성(Simultaneous Localization and Mapping, SLAM)과 같은 수많은 핵심 응용 기술의 기반을 형성한다.1 특징점 매칭의 핵심 과제는 실제 세계의 가혹한 조건, 즉 극심한 시점 변화, 조명 조건의 변동, 객체에 의한 가려짐(occlusion), 모션 블러(motion blur), 그리고 반복적이거나 특색 없는 텍스처(texture) 등에도 불구하고 강건하게(robust) 정확한 대응점을 찾아내는 것이다.4 이러한 도전 과제들을 효과적으로 해결하는 능력은 후속 작업인 카메라 자세 추정(pose estimation)이나 3차원 구조 복원의 성공을 좌우하는 결정적인 요소가 된다.

1.2 패러다임의 전환: 수제작에서 학습 기반으로

전통적으로 특징점 매칭은 ’탐지(Detect) → 기술(Describe) → 매칭(Match)’이라는 순차적인 파이프라인으로 구성되었다.1 이 패러다임의 정점에는 2004년 David Lowe에 의해 제안된 SIFT(Scale-Invariant Feature Transform)가 있었다.1 SIFT는 스케일, 회전, 조명 변화에 불변하는 지역 특징 기술자(local feature descriptor)를 수제작(handcrafted) 방식으로 설계하여 십수 년간 이 분야의 표준으로 자리 잡았다. 하지만 SIFT와 같은 수제작 방식은 설계자의 직관과 수학적 모델링에 의존하기 때문에, 텍스처가 부족하거나 반복적인 패턴이 나타나는 복잡한 실제 환경에서는 명백한 한계를 보였다.1

이러한 한계를 극복하기 위해 딥러닝 기술이 도입되면서, 컨볼루션 신경망(CNN)을 기반으로 데이터로부터 특징 기술자를 직접 학습하는 연구들이 등장했다. 그러나 이들 역시 파이프라인의 ‘기술’ 단계만을 개선했을 뿐, 매칭 과정 자체는 여전히 최근접 이웃 탐색(Nearest Neighbor search)과 같은 단순한 휴리스틱에 의존했다. 2020년 Paul-Edouard Sarlin 등이 발표한 SuperGlue는 이러한 패러다임에 근본적인 전환을 가져왔다.7 SuperGlue는 특징 추출(front-end)과 기하학적 모델 추정(back-end) 사이에서 데이터 연관(data association) 문제를 직접적으로 해결하는 ’학습 가능한 중간 단계(learnable middle-end)’라는 개념을 제시했다.5 이는 단순히 더 나은 특징 기술자를 만드는 것을 넘어, 주어진 특징들 간의 관계를 추론하고 최적의 대응 관계를 찾아내는 ‘매칭 과정’ 자체를 종단간(end-to-end)으로 학습하는 혁신적인 접근법이었다.7

이러한 패러다임의 전환은 특징점 매칭 문제의 초점을 개별 특징점의 ’불변성(invariance)’을 높이는 것에서 특징점들 간의 ’관계(relation)’와 ’구조(structure)’를 이해하는 방향으로 옮겨 놓았다. 전통적인 SIFT나 초기 학습 기반 방법들은 각 특징점을 고립된 개체로 보고 그 자체의 속성을 강건하게 만드는 데 집중했다.2 반면 SuperGlue는 그래프 신경망(Graph Neural Network, GNN)을 통해 모든 특징점을 하나의 그래프 상의 노드로 연결함으로써, 개별 특징점의 의미가 다른 특징점과의 관계 속에서 결정된다는 구조주의적 관점을 도입했다.6 이는 컴퓨터 비전 분야가 개별 요소의 인식(recognition)을 넘어 장면의 전체적인 기하학적, 맥락적 이해(understanding)로 나아가는 거대한 흐름을 반영하는 것이었다. ’어떻게 더 좋은 특징을 뽑을 것인가?’라는 질문에서 ’주어진 특징들을 가지고 어떻게 더 현명하게 관계를 맺을 것인가?’라는 질문으로의 이행을 촉발한 것이다. 결과적으로 이 패러다임 전환은 특징점 매칭을 고립된 저수준(low-level) 비전 문제를 넘어, 3D 장면의 기하학적 일관성과 같은 고수준(high-level) 사전 지식(prior)을 학습하는 문제로 격상시켰으며 5, 이는 SLAM이나 SfM 시스템 전체를 종단간으로 학습하려는 미래의 시도에 중요한 이론적, 실용적 기반을 제공한다.

1.3 SuperGlue의 핵심 기여와 보고서의 구조

SuperGlue의 핵심 기여는 두 가지로 요약할 수 있다. 첫째, 그래프 신경망과 주의 집중(attention) 메커니즘을 활용하여 이미지 내(intra-image) 및 이미지 간(inter-image)의 풍부한 시각적, 공간적 컨텍스트를 집계하고 이를 통해 특징 기술자를 정교화했다. 둘째, 매칭 문제를 미분 가능한 최적 수송(Optimal Transport) 문제로 공식화하고 이를 싱크혼(Sinkhorn) 알고리즘으로 해결함으로써, 매칭되지 않는 점(outlier)까지 우아하게 처리하는 종단간 학습 프레임워크를 구축했다.6 본 보고서는 이러한 SuperGlue의 기술적 혁신을 심층적으로 분석하고, 전통적 방법론과의 정량적 비교를 통해 그 성능의 우수성을 입증하며, 나아가 실제 응용 분야에서의 영향과 미래 기술 전망까지 포괄적으로 다루고자 한다.

2. 전통적 특징점 매칭의 패러다임과 한계

2.1 ‘탐지 → 기술 → 매칭’ 파이프라인 심층 분석

전통적인 특징점 매칭 방법론은 수십 년간 컴퓨터 비전 분야의 근간을 이루어 왔으며, 이는 명확하게 구분되는 세 단계의 파이프라인으로 구성된다.

2.1.1 탐지 (Detection)

첫 번째 단계는 이미지 내에서 안정적이고 반복적으로 검출될 수 있는 특별한 지점, 즉 키포인트(keypoint) 또는 관심 지점(interest point)을 찾는 것이다. 좋은 키포인트는 이미지의 스케일 변화(객체가 카메라에 가깝거나 멀어짐), 회전, 조명 변화에도 불구하고 동일한 위치에서 일관되게 검출되어야 한다. 이를 위해 초기의 Harris Corner Detector부터 SIFT에서 사용된 DoG(Difference of Gaussians) 검출기에 이르기까지 다양한 알고리즘이 개발되었다.2 DoG는 이미지 피라미드의 여러 스케일에서 라플라시안의 근사치를 계산하여, 스케일에 불변하는 안정적인 블롭(blob) 형태의 특징을 찾아낸다.14

2.1.2 기술 (Description)

키포인트가 탐지되면, 다음 단계는 해당 지점 주변의 지역적 이미지 정보를 고유한 ’지문’처럼 표현하는 고차원 벡터, 즉 기술자(descriptor)로 변환하는 것이다. 이 기술자는 키포인트와 마찬가지로 다양한 기하학적, 광학적 변화에 강건해야 한다. SIFT 기술자는 이 분야에서 가장 성공적인 사례로, 키포인트의 주 방향(dominant orientation)을 기준으로 정규화된 좌표계에서 16개의 4x4 셀에 대한 그래디언트 방향 히스토그램을 계산하여 128차원의 벡터를 생성한다.2 이 과정은 회전과 조명 변화에 대한 높은 수준의 불변성을 제공하며, SIFT가 오랫동안 표준으로 사용될 수 있었던 핵심적인 이유이다.

2.1.3 매칭 (Matching)

마지막으로, 두 이미지에서 추출된 기술자 집합 간의 대응 관계를 설정한다. 가장 일반적인 방법은 한 이미지의 각 기술자에 대해 다른 이미지의 모든 기술자와의 유클리드 거리를 계산하여 가장 가까운 것을 찾는 최근접 이웃(Nearest Neighbor, NN) 탐색이다.2 하지만 이 방법은 모호한 매칭을 유발할 수 있다. 예를 들어, 반복적인 패턴을 가진 벽의 한 지점은 다른 이미지의 여러 지점과 유사한 기술자를 가질 수 있다. 이를 해결하기 위해 Lowe는 가장 가까운 이웃과의 거리와 두 번째로 가까운 이웃과의 거리 비율을 계산하는 ’비율 테스트(ratio test)’를 제안했다.12 이 비율이 특정 임계값(예: 0.8)보다 낮을 경우에만 신뢰할 수 있는 매칭으로 간주하여 모호성을 줄인다.

2.2 고전적 방법론의 근본적 한계

이러한 파이프라인은 매우 효과적이었지만, 다음과 같은 근본적인 한계를 내포하고 있었다.

지역성의 한계 (Limitation of Locality): 각 기술자는 키포인트 주변의 매우 제한된 지역 정보만을 인코딩한다.1 이로 인해 텍스처가 거의 없거나(textureless) 반복적인 패턴(예: 벽돌 벽, 창문 격자)이 많은 영역에서는 서로 다른 키포인트들이 매우 유사한 기술자를 갖게 되어 심각한 매칭 모호성(ambiguity)을 유발한다.4
컨텍스트의 부재 (Lack of Context): 매칭 결정은 오직 두 기술자 벡터 간의 독립적인 거리 계산에만 의존한다. 이는 장면의 전역적인 기하학적 구조나 다른 특징점들과의 상대적인 공간 관계와 같은 풍부한 컨텍스트 정보를 완전히 무시하는 방식이다.1 따라서 기하학적으로는 명백히 불가능한 수많은 오매칭(outlier)이 발생하게 되며, 이는 후처리 단계에서 제거되어야 할 부담으로 작용한다.
경직된 파이프라인 (Rigid Pipeline): ’탐지-기술-매칭’의 각 단계는 독립적으로 순차 수행된다. 이는 탐지 단계에서 발생한 작은 오류나 불확실성이 후속 단계에서 보정될 기회 없이 그대로 누적되고 증폭되는 결과를 낳는다.1 RANSAC(Random Sample Consensus)과 같은 이상치 제거 기법은 이미 생성된 매칭 풀에서 기하학적 모델에 부합하는 부분 집합을 찾는 후처리 과정일 뿐, 매칭 자체의 근본적인 품질을 개선하지는 못한다.2
극심한 외형 변화에 대한 취약성: SIFT의 불변성 설계에도 불구하고, 60도 이상의 극심한 시점 변화, 극단적인 조명 변화, 또는 비강체 변형(non-rigid deformation)이 발생하면 기술자의 불변성 가정이 깨져 매칭 성능이 급격히 저하된다.4

전통적 방법론의 이러한 한계는 ’정보의 부족’에서 기인하는 것이 아니라, 이미지에 내재된 풍부한 정보를 ’활용하는 능력의 부재’에서 비롯된다. 이미지는 개별 픽셀 패치를 넘어서는 방대한 양의 전역적, 구조적 정보를 담고 있다. 인간이 두 이미지를 비교할 때, 단순히 개별 지점의 외형만을 보지 않는다. 대신 “왼쪽 위의 창문은 오른쪽 위의 창문과 대응되고, 그 아래의 문은 저쪽의 문과 대응되니, 이 두 관계는 기하학적으로 일관성이 있다“와 같이 전체적인 관계망을 동시에 추론한다. 전통적인 매칭 파이프라인은 이러한 고차원적인 추론을 수행할 메커니즘이 부재했다. 비율 테스트나 RANSAC은 이러한 추론 과정을 매우 단순화된 형태로 흉내 내는 것에 불과했다. 바로 이 ’정보 활용 능력의 부재’가 SuperGlue가 GNN을 통한 ’컨텍스트 집계(context aggregation)’를 핵심 아이디어로 채택하게 된 직접적인 동기이다.5 GNN은 각 특징점이 다른 모든 특징점과 상호작용하며 자신의 정체성을 재정립하고, 전역적으로 가장 그럴듯한 매칭을 찾도록 돕는 강력한 도구를 제공함으로써, 고전적 방법이 해결하지 못한 근본적인 문제를 정면으로 돌파했다.

3. SuperGlue: 학습 가능한 매칭의 새로운 접근

3.1 핵심 철학: 매칭을 학습 문제로의 재정의

SuperGlue는 전통적인 접근법의 한계를 극복하기 위해 문제 자체를 근본적으로 다르게 정의했다. 더 나은 불변 특징을 수작업으로 설계하거나 학습하는 대신, 이미 존재하는 특징점 추출기(off-the-shelf local features)가 제공한 키포인트와 기술자(예: SuperPoint 또는 SIFT)를 입력으로 받아, 이들 간의 최적의 대응 관계를 찾아내는 ‘매칭 과정’ 자체를 학습하는 것을 목표로 삼았다.6 이는 특징점 매칭을 두 집합 간의 ’최적 할당 문제(optimal assignment problem)’로 재정의하는 패러다임의 전환을 의미했다.5 이 접근법은 SuperGlue를 특징 추출기(front-end)와 자세 추정기(back-end) 사이에서 데이터 연관을 지능적으로 수행하는 ’학습 가능한 중간 단계(middle-end)’로 위치시킨다.

3.2 부분 할당 문제로의 공식화 (Formulation as a Partial Assignment Problem)

실제 이미지 쌍에서는 한 이미지의 모든 특징점이 다른 이미지에서 반드시 대응점을 갖지는 않는다. 가려짐(occlusion), 시야 밖으로 벗어남, 또는 특징점 검출기의 실패 등 다양한 이유로 일부 특징점은 대응점이 없을 수 있다.15 따라서 SuperGlue는 이 문제를 모든 점이 일대일로 연결되는 완전 할당(full assignment)이 아닌, 일부 점들만 연결되는 ’부분 할당(partial assignment)’을 찾는 문제로 공식화했다.

두 이미지 A와 B에 각각 M개와 N개의 특징점이 주어졌을 때, 목표는 다음 두 가지 제약 조건을 만족하는 할당 행렬 $P \in \{0, 1\}^{M \times N}$ 을 찾는 것이다.

유일성 제약: 각 특징점은 최대 하나의 대응점만 가질 수 있다. 즉, 행렬 P의 각 행의 합은 1 이하이고, 각 열의 합도 1 이하이다.

$\forall i, \sum_{j=1}^{N} P_{ij} \le 1 \quad \text{and} \quad \forall j, \sum_{i=1}^{M} P_{ij} \le 1$
점수 최대화: 모든 가능한 매칭 쌍 (i, j)에 대한 신뢰도 점수 S_ij가 주어졌을 때, 전체 할당의 총 점수 $\sum_{i,j} S_{ij} P_{ij}$ 를 최대화해야 한다.

이러한 공식화는 매칭 문제를 조합 최적화 문제로 명확하게 정의하지만, P가 이산적인 값을 갖기 때문에 경사하강법(gradient descent)을 이용한 심층 신경망의 종단간 학습에는 직접적으로 사용될 수 없다.

3.3 미분 가능한 최적 수송 문제로의 변환

SuperGlue는 이산적인 할당 문제를 미분 가능한(differentiable) 프레임워크 내에서 해결하기 위해, 이를 ‘최적 수송(Optimal Transport)’ 문제로 완화(relax)하는 독창적인 방법을 도입했다.6 최적 수송 이론은 한 확률 분포를 다른 확률 분포로 변환하는 데 필요한 최소 비용을 찾는 문제로, 이산적인 할당 문제를 연속적인 확률 공간에서 다룰 수 있게 해준다.18

SuperGlue는 할당 행렬 P의 원소가 0 또는 1의 이산적인 값을 갖는 대신, 0과 1 사이의 연속적인 확률 값을 갖도록 허용한다. 즉, P를 소프트 할당 행렬(soft assignment matrix)로 간주한다.

$P \in ^{M \times N} \quad \text{s.t.} \quad P\mathbf{1}_N \le \mathbf{1}_M \quad \text{and} \quad P^T\mathbf{1}_M \le \mathbf{1}_N$
여기서 $\mathbf{1}_N$ 은 모든 원소가 1인 N차원 벡터이다.6 이 문제는 GNN이 예측한 점수 행렬

S를 비용 행렬로 사용하여, 고전적인 싱크혼(Sinkhorn) 알고리즘을 통해 효율적으로 해를 구할 수 있다.6 싱크혼 알고리즘은 행렬에 대한 간단한 반복적인 정규화 연산으로 구성되어 미분 가능하며, GPU 상에서 병렬 처리에 매우 효율적이다.

SuperGlue의 가장 심오한 기여 중 하나는 이처럼 ’미분 가능성(differentiability)’을 매칭 파이프라인의 핵심에 도입한 것이다. 이는 매칭이라는 조합 최적화 문제를 심층 신경망의 언어인 경사하강법의 세계로 끌어들인 결정적인 ‘연결고리’ 역할을 한다. 전통적인 매칭 후 RANSAC을 사용하는 파이프라인은 미분 불가능하여, 최종 목표(예: 자세 추정 오차)에 대한 매칭 품질의 기여도를 역전파(backpropagate)하여 학습할 수 없었다. SuperGlue는 할당 문제를 미분 가능한 최적 수송 문제로 공식화하고, 싱크혼이라는 미분 가능한 솔버를 사용함으로써 이 장벽을 허물었다.6 이 ‘미분 가능성’ 덕분에, 최종적인 기하학적 손실(geometric loss)로부터 GNN의 가중치까지 오차가 역전파될 수 있게 되었다. 이는 네트워크가 단순히 시각적으로 유사한 매칭을 찾는 것을 넘어, ’궁극적으로 정확한 카메라 자세를 유도하는 매칭’을 학습하게 됨을 의미한다. 즉, 최종 목표에 직접적으로 기여하는 방식으로 컨텍스트를 이해하고 3D 세계에 대한 사전 지식을 학습하게 되는 것이다.5 이것이 SuperGlue가 단순히 정확도가 높은 것을 넘어, 특정 응용 분야에서 매우 효과적인 이유이다.

4. 핵심 아키텍처 심층 분석

SuperGlue의 아키텍처는 두 개의 핵심 모듈로 구성된다: (1) 입력된 특징 기술자를 컨텍스트 정보를 활용하여 정교화하는 **주의 집중 그래프 신경망(Attentional Graph Neural Network)**과 (2) 정교화된 기술자로부터 최적의 매칭을 계산하는 **최적 매칭 계층(Optimal Matching Layer)**이다.7

4.1 주의 집중 그래프 신경망 (Attentional Graph Neural Network): 컨텍스트 집계

이 모듈의 목표는 각 키포인트의 초기 기술자를 주변의 시각적, 공간적 컨텍스트 정보를 풍부하게 반영하는 강력한 ’매칭 기술자(matching descriptor)’로 변환하는 것이다. 이는 트랜스포머(Transformer) 아키텍처에서 영감을 받은 주의 집중 메커니즘을 통해 이루어진다.5

4.1.1 키포인트 인코더 (Keypoint Encoder)

GNN의 입력으로 사용될 초기 노드 표현을 생성하는 단계이다. 각 키포인트 i는 위치 정보 $p_i = (x, y, c)_i$ (좌표 및 신뢰도)와 D차원의 시각적 기술자 $d_i \in \mathbb{R}^D$ 를 갖는다.6 SuperGlue는 이 두 가지 정보를 결합하여 위치와 외형을 모두 고려하는 표현을 만든다. 위치 정보

$p_i$ 를 다층 퍼셉트론(MLP)을 통해 시각적 기술자와 동일한 차원인 D차원 벡터로 인코딩한 후, 이를 시각적 기술자 $d_i$ 에 더하여 초기 표현 $(0)x_i$ 를 생성한다.

$^{(0)}x_i = d_i + \text{MLP}_{\text{enc}}(p_i)$
이 방식은 트랜스포머의 위치 인코딩(positional encoding)과 유사한 역할을 수행하며, 네트워크가 시각적 유사성뿐만 아니라 키포인트들의 상대적인 공간 배열과 같은 기하학적 관계까지 함께 추론할 수 있도록 하는 핵심적인 장치이다.5

4.1.2 그래프 구성 및 메시지 전달

SuperGlue는 두 이미지 A와 B에 속한 모든 키포인트들을 노드(node)로 하는 하나의 완전 그래프(complete graph)를 구성한다.16 이 그래프는 두 종류의 엣지(edge)를 갖는 멀티플렉스(multiplex) 그래프로 볼 수 있다.

이미지 내 엣지 (Intra-image edges / Self-edges): 같은 이미지 내의 모든 키포인트 쌍을 연결한다. 이 엣지를 통한 메시지 전달은 Self-Attention을 통해 이루어지며, 이미지 내부의 컨텍스트를 집계하여 각 기술자의 표현력을 강화하는 역할을 한다.
이미지 간 엣지 (Inter-image edges / Cross-edges): 이미지 A의 한 키포인트를 이미지 B의 모든 키포인트와 연결한다. 이 엣지를 통한 메시지 전달은 Cross-Attention을 통해 이루어지며, 두 이미지 간의 잠재적 대응 관계에 대한 정보를 교환하고 전파하는 역할을 한다.6

메시지 전달은 L개의 GNN 레이어를 통해 반복적으로 수행된다. 각 레이어 $\ell = 1, \dots, L$ 에서 노드 i의 표현 $(\ell)x_i$ 는 이전 레이어의 표현 $(\ell-1)x_i$ 에 메시지 $m_{\mathcal{E} \to i}$ 를 더하여 업데이트된다.

$^{(\ell)}x_i = ^{(\ell-1)}x_i + \text{MLP}( [^{(\ell-1)}x_i \Vert m_{\mathcal{E} \to i}] )$
SuperGlue는 홀수 레이어에서는 Self-Attention(이미지 내 엣지)을, 짝수 레이어에서는 Cross-Attention(이미지 간 엣지)을 번갈아 적용하여, 이미지 내부의 구조적 이해와 이미지 간의 관계 추론을 점진적으로 통합한다.6

4.1.3 주의 집중(Attention) 메커니즘

메시지 $m_{\mathcal{E} \to i}$ 는 트랜스포머의 멀티-헤드 어텐션(multi-head attention)을 기반으로 계산된다. 특정 엣지 집합 $\mathcal{E}$ 에 대해 노드 i로 전달되는 메시지는 이웃 노드 j들의 값(Value) 벡터 $v_j$ 를 주의 집중 가중치 $\alpha_{ij}$ 로 가중합하여 계산된다.

$m_{\mathcal{E} \to i} = \sum_{j:(i,j) \in \mathcal{E}} \alpha_{ij} v_j$
가중치 $\alpha_{ij}$ 는 노드 i의 쿼리(Query) 벡터 $q_i$ 와 노드 j의 키(Key) 벡터 $k_j$ 의 내적 유사도에 소프트맥스(softmax) 함수를 적용하여 계산된다.

$\alpha_{ij} = \text{softmax}_j \left( \frac{q_i^T k_j}{\sqrt{d_k}} \right)$
여기서 $q_i, k_j, v_j$ 는 각각 이전 레이어의 표현 $(\ell-1)x_i, (\ell-1)x_j$ 로부터 별도의 선형 변환을 통해 계산되며, $d_k$ 는 키 벡터의 차원이다.6 이 메커니즘을 통해 네트워크는 각 키포인트를 업데이트할 때, 현재 맥락에서 가장 관련성이 높은 다른 키포인트들의 정보에 ’집중’하여 동적으로 정보를 취사선택할 수 있다.10

이러한 GNN 구조는 인간의 시각적 추론 과정을 효과적으로 모방한다. 우리는 두 이미지를 비교할 때, 먼저 한 이미지 내에서 객체들의 상대적 위치와 관계를 파악하고(Self-Attention), 그 정보를 바탕으로 다른 이미지에서 대응되는 구조를 탐색한 뒤(Cross-Attention), 다시 원래 이미지로 돌아와 가설을 검증하고 정교화하는 과정을 반복한다. 이 반복적인 정보 교환 과정은 각 키포인트가 고립된 외형 정보뿐만 아니라, 전체 장면의 기하학적 맥락 속에서 자신의 정체성을 찾도록 강제한다. 이로 인해 SuperGlue는 단일 매칭 쌍의 지역적 유사성을 넘어 ’전체 매칭 집합의 전역적 일관성(global consistency)’을 최대화하는 해를 찾을 수 있게 되며, 이것이 바로 SuperGlue의 강인함의 핵심 비결이다.

4.2 최적 매칭 계층 (Optimal Matching Layer): 할당 및 필터링

GNN을 통과하여 최종적으로 생성된 매칭 기술자 f를 사용하여, 두 특징점 집합 간의 최적의 부분 할당 행렬 P를 계산하는 모듈이다.

4.2.1 점수 행렬 (Score Matrix) 예측

모든 잠재적 매칭 쌍 $(i, j)$ (여기서 i는 이미지 A의 키포인트, j는 이미지 B의 키포인트)에 대한 신뢰도 점수 $S_{ij}$ 는 GNN의 최종 출력인 두 매칭 기술자 $f_i^A$ 와 $f_j^B$ 의 내적(inner product)으로 간단하게 계산된다.

$S_{ij} = \langle f_i^A, f_j^B \rangle$
이 계산을 통해 크기가 $M \times N$ 인 점수 행렬 S가 생성된다.10 기술자의 벡터 크기(magnitude)가 매칭 신뢰도를 암시하도록 학습되기 때문에, 별도의 정규화 과정은 거치지 않는다.

4.2.2 ’더스트빈 (Dustbin)’을 이용한 이상치 처리

실제 상황에서는 대응점이 없는 키포인트(outlier)가 다수 존재한다. SuperGlue는 이를 처리하기 위해 매우 독창적인 ‘더스트빈(dustbin)’ 개념을 도입했다.15 각 이미지의 키포인트 집합에 가상의 ‘더스트빈’ 노드를 하나씩 추가한다. 이제 이미지 A의 키포인트 i는 이미지 B의 특정 키포인트 j에 매칭되거나, 혹은 이미지 B의 더스트빈에 할당될 수 있다. 마찬가지로 이미지 B의 키포인트 j도 이미지 A의 더스트빈에 할당될 수 있다. 이는 가려짐이나 검출 실패로 인해 대응점이 없는 특징점을 명시적으로 모델링하는 우아한 방법이다.

이 더스트빈 개념을 적용하기 위해 점수 행렬 S는 $ (M+1) \times (N+1) $ 크기로 확장된다. 추가된 마지막 행과 열은 각 키포인트가 더스트빈에 할당될 점수와, 두 더스트빈이 서로 매칭될 점수를 나타내며, 이는 모두 학습 가능한 파라미터로 채워진다.10

4.2.3 싱크혼 알고리즘 (Sinkhorn Algorithm)

확장된 점수 행렬 $ \bar{S} \in \mathbb{R}^{(M+1) \times (N+1)} $가 주어지면, SuperGlue는 이를 입력으로 받아 최적 수송 문제를 근사적으로 해결하는 싱크혼 알고리즘을 적용한다.19 싱크혼 알고리즘은 행렬의 모든 원소가 양수가 되도록 $\exp(\bar{S})$ 를 취한 뒤, 행(row) 방향으로 합이 1이 되도록 정규화하고, 그 다음 열(column) 방향으로 합이 1이 되도록 정규화하는 과정을 T회 반복한다.

$\mathbf{P}^{(0)} = \exp(\bar{S})$

$\text{For } t=1 \dots T: \quad \mathbf{P}^{(t)} = \text{norm\_cols}(\text{norm\_rows}(\mathbf{P}^{(t-1)}))$

이 반복 과정을 거치면 행렬은 각 행과 열의 합이 1에 가까워지는 이중 확률 행렬(doubly stochastic matrix)로 수렴한다.21 이 최종 행렬이 바로 소프트 할당 행렬 $\bar{P}$ 이다. 마지막으로, 더스트빈에 해당하는 마지막 행과 열을 제거하여 원래 크기인 $M \times N$ 의 부분 할당 행렬 P를 얻는다.16

P의 원소 $P_{ij}$ 는 키포인트 i와 j가 매칭될 확률을 나타내며, 이 값이 특정 임계값을 넘고 상호 유일성(mutual nearest neighbor)을 만족하는 쌍들이 최종 매칭 결과로 선택된다.

5. 성능 평가 및 벤치마크 분석

SuperGlue의 성능은 다양한 공개 벤치마크 데이터셋을 통해 기존의 최신(state-of-the-art, SOTA) 알고리즘들과 비교하여 철저하게 검증되었다. 이 섹션에서는 주요 벤치마크, 평가지표, 그리고 정량적 비교 결과를 상세히 분석한다.

5.1 주요 벤치마크 데이터셋

ScanNet: 실내(indoor) 환경에 대한 대규모 RGB-D 비디오 시퀀스 데이터셋이다. 복잡한 기하학적 구조와 다양한 가구, 조명 조건을 포함하고 있어 실내 환경에서의 3D 재구성 및 자세 추정 알고리즘 성능 평가에 널리 사용된다.10 SuperGlue의 indoor 사전 학습 모델은 이 데이터셋을 사용하여 학습되었다.10
MegaDepth / PhotoTourism: 인터넷에서 수집된 수백만 장의 야외(outdoor) 이미지로 구성된 대규모 데이터셋이다. 유명 랜드마크 주변에서 다양한 시간대, 계절, 시점에서 촬영된 이미지들을 포함하여, 극심한 외형 변화에 대한 알고리즘의 일반화 성능을 평가하는 데 이상적이다.10 SuperGlue의 outdoor 모델은 이 데이터셋으로 학습되었다.10
HPatches: 116개의 실제 장면에 대해 시점(viewpoint) 변화와 조명(illumination) 변화를 체계적으로 가한 이미지 패치 시퀀스로 구성된 데이터셋이다. 호모그래피(homography) 변환을 통해 정확한 대응점(ground truth)이 알려져 있어, 매칭 알고리즘 자체의 순수한 품질을 정밀하게 측정하는 데 사용된다.23

5.2 핵심 평가지표

자세 추정 오차 (Pose Error): 두 이미지 간의 상대적인 카메라 자세(회전 및 평행이동)를 추정한 결과와 실제 값(ground truth) 간의 각도 및 거리 오차.
AUC (Area Under the Curve) @ t°: 자세 오차 누적 분포 곡선에서, 특정 각도 임계값(예: 5°, 10°, 20°)까지의 곡선 아래 면적(Area Under the Curve)을 의미한다. 이 값이 높을수록 더 많은 이미지 쌍에 대해 정확한 자세를 추정했음을 나타낸다.23
정밀도 (Precision): 알고리즘이 ’매칭’이라고 판단한 쌍들 중에서 실제로 올바른 매칭(inlier)인 것들의 비율. $TP / (TP + FP)$ 로 계산되며, 매칭 결과의 신뢰도를 나타낸다.23
재현율 (Recall / Matching Score): 전체 가능한 올바른 매칭 중에서 알고리즘이 실제로 찾아낸 비율. $TP / (TP + FN)$ 으로 계산되며, 매칭의 완전성(completeness)을 나타낸다.23

5.3 정량적 성능 비교 분석

SuperGlue는 SIFT나 SuperPoint와 같은 다양한 특징점 추출기와 결합했을 때, 기존의 최근접 이웃(NN) 기반 매칭은 물론, 학습 기반 필터링 기법인 OANet, PointCN 등을 모든 벤치마크와 평가지표에서 일관되게, 그리고 압도적인 차이로 능가하는 성능을 보였다.7

5.3.1 Table 1: 야외 자세 추정 성능 (MegaDepth/PhotoTourism)

아래 표는 극심한 시점과 조명 변화가 있는 도전적인 야외 환경에서의 자세 추정 성능을 AUC 지표로 비교한 결과이다. 이 표는 SuperGlue의 뛰어난 일반화 능력을 보여주는 핵심 증거이다. 실내 데이터와는 전혀 다른 분포를 가진 야외 데이터에서도 학습된 기하학적 사전 지식이 효과적으로 작동함을 보여준다. 특히, 서로 다른 종류의 특징점인 SIFT와 SuperPoint 모두와 결합했을 때 성능을 일관되게 향상시킨다는 점은 SuperGlue가 특징점 자체의 품질을 넘어 ’매칭 지능’을 제공하는 범용적인 ’middle-end’임을 증명한다.

Local Features	Matcher	Pose Accuracy (AUC @5°)	Pose Accuracy (AUC @10°)	Pose Accuracy (AUC @20°)
SIFT	NN + ratio test	24.09	40.71	58.14
SIFT	NN + OANet	29.15	48.12	65.08
SIFT	SuperGlue	30.49	51.29	69.72
SuperPoint	NN + mutual	16.94	30.39	45.72
SuperPoint	NN + OANet	26.82	45.04	62.17
SuperPoint	SuperGlue	38.72	59.13	75.81

Source: 23

분석 결과, SuperGlue는 SIFT와 SuperPoint 특징 모두에서 모든 각도 임계값에 걸쳐 다른 모든 매칭 기법보다 월등히 높은 AUC 점수를 기록했다. 특히 SuperPoint 특징과 결합했을 때, 5° 임계값에서 38.72의 AUC를 달성하여 OANet(26.82) 대비 약 44%의 성능 향상을 보였다.

5.3.2 Table 2: 호모그래피 추정 성능 (HPatches)

호모그래피 추정 평가는 RANSAC과 같은 후처리 단계의 영향을 최소화하고 매칭 알고리즘 자체의 순수한 품질을 직접적으로 비교할 수 있게 해준다. 아래 표는 HPatches 데이터셋에서 시점 및 조명 변화에 대한 정밀도(P)와 재현율(R)을 보여준다. 이 표는 SuperGlue의 성능 향상이 후처리 덕분이 아니라, 알고리즘 자체의 근본적인 우수성에서 비롯됨을 명확히 한다.

Matcher	Viewpoint P (%)	Viewpoint R (%)	Illumination P (%)	Illumination R (%)
NN	39.7	81.7	51.1	84.9
NN + mutual	65.6	77.1	74.2	80.7
NN + PointCN	87.6	80.7	94.5	82.6
NN + OANet	90.4	81.2	96.3	83.5
SuperGlue	91.4	95.7	89.1	91.7

Source: 23

이 표에서 가장 주목할 점은 SuperGlue가 정밀도와 재현율을 동시에 크게 향상시켰다는 것이다. 예를 들어 시점 변화(Viewpoint) 조건에서 OANet은 90.4%의 높은 정밀도를 보이지만 재현율은 81.2%에 머무른다. 반면 SuperGlue는 91.4%의 더 높은 정밀도를 유지하면서 재현율을 95.7%까지 끌어올렸다. 이는 SuperGlue가 더 많은 올바른 매칭을 찾아내면서도(높은 재현율), 그 매칭들의 신뢰도가 매우 높음(높은 정밀도)을 의미한다.

5.3.3 Table 3: 시각적 위치 인식 성능 (Aachen Day-Night)

이 표는 주간에 구축된 3D 모델을 이용해 야간 쿼리 이미지의 위치를 찾는 도전적인 시각적 위치 인식 벤치마크 결과이다.

Method	# features	Correctly localized queries (%) (0.5m/2°)	Correctly localized queries (%) (1m/5°)	Correctly localized queries (%) (5m/10°)
R2D2	20k	46.9	66.3	88.8
D2-Net	15k	45.9	68.4	88.8
SuperPoint+NN+mutual	4k	43.9	59.2	76.5
SuperPoint+SuperGlue	4k	45.9	70.4	88.8

Source: 23

SuperPoint+SuperGlue 조합은 R2D2나 D2-Net과 같은 다른 최신 방법들보다 훨씬 적은 수의 특징점(4k vs 15-20k)을 사용했음에도 불구하고, 1m/5° 임계값에서 70.4%로 가장 높은 성능을 달성했다. 이는 SuperGlue의 GNN이 학습한 컨텍스트 추론 능력이 극심한 조명 변화와 같은 어려운 조건에서도 효과적으로 작동하며, 적은 수의 특징점만으로도 매우 정확한 위치 인식이 가능함을 시사한다.

6. 실용적 구현 및 응용

6.1 공식 구현 및 사전 학습 모델

SuperGlue의 연구 성과는 학술적 발표에 그치지 않고, 개발자와 연구자들이 쉽게 접근하고 활용할 수 있도록 공식 구현체와 사전 학습된 모델이 공개되었다. Magic Leap은 CVPR 2020 발표와 함께 PyTorch 기반의 공식 코드를 GitHub 저장소를 통해 공개했다.10 이 저장소는 SuperGlue 알고리즘의 핵심 로직뿐만 아니라, SuperPoint 특징점 추출기와 연동하여 이미지 쌍으로부터 최종 매칭 결과를 도출하는 전체 파이프라인을 포함하고 있다.

특히, 두 가지 환경에 특화된 사전 학습 모델이 제공되어 사용 편의성을 크게 높였다 10:

Indoor 모델: ScanNet 데이터셋으로 학습되었으며, 실내 환경처럼 구조적인 정보가 풍부하고 시점 변화가 비교적 적은 장면에 최적화되어 있다.
Outdoor 모델: MegaDepth 데이터셋으로 학습되었으며, 넓은 시점 변화, 다양한 조명 조건, 복잡한 배경을 포함하는 야외 환경에 강인한 성능을 보인다.

또한, 저장소에는 demo_superglue.py와 match_pairs.py와 같은 유용한 데모 스크립트가 포함되어 있다. demo_superglue.py는 웹캠, IP 카메라, 비디오 파일, 또는 이미지 디렉토리를 입력으로 받아 실시간으로 특징점 매칭을 수행하고 결과를 시각화해준다.10

match_pairs.py는 지정된 이미지 쌍 목록에 대해 매칭을 수행하고, 키포인트, 기술자, 매칭 인덱스 등의 결과를 .npz 파일 형식으로 저장하여 후속 연구나 분석에 활용할 수 있도록 한다.10 이러한 잘 갖춰진 생태계 덕분에 SuperGlue는 발표 직후부터 학계와 산업계에서 빠르게 채택될 수 있었다.

6.2 주요 응용 분야

SuperGlue의 강력하고 신뢰도 높은 매칭 성능은 컴퓨터 비전의 다양한 응용 분야에 즉각적인 영향을 미쳤다.

SLAM (Simultaneous Localization and Mapping): SLAM 시스템에서 가장 중요한 요소 중 하나는 안정적인 추적(tracking)과 정확한 루프 폐쇄(loop closure) 탐지이다. SuperGlue는 강건한 데이터 연관(data association) 능력을 통해 이 두 가지 모두를 크게 향상시킨다. 예를 들어, 로봇이나 카메라가 빠르게 회전하거나 조명이 급격하게 변하는 상황에서 기존의 특징점 추적기는 쉽게 실패하지만, SuperGlue는 장면의 전역적 컨텍스트를 이해하므로 이러한 상황에서도 안정적인 추적을 유지할 수 있다.7
SfM (Structure-from-Motion) 및 3D 재구성: SfM은 여러 장의 이미지로부터 카메라의 궤적과 3차원 장면 구조를 동시에 복원하는 기술이다. 이 기술의 성공은 넓은 기준선(wide-baseline), 즉 서로 멀리 떨어진 위치에서 촬영된 이미지 쌍 간의 정확한 매칭에 크게 의존한다. SuperGlue는 넓은 기준선 이미지 쌍에서도 신뢰도 높은 매칭을 대량으로 제공하여, 더 정밀하고 완전하며 거대한 규모의 3D 모델 재구성을 가능하게 한다.26
시각적 위치 인식 (Visual Localization): 사전에 구축된 3D 지도(map)가 있을 때, 새로운 쿼리 이미지의 정확한 6-DoF(자유도) 자세를 찾는 작업이다. SuperGlue는 주간에 촬영된 이미지로 구축된 지도를 이용하여 야간에 촬영된 쿼리 이미지의 위치를 정확하게 찾는 등, 극심한 외형 변화에도 강인한 성능을 보여준다.11 이는 자율 주행 자동차나 AR 내비게이션과 같은 응용에서 매우 중요한 능력이다.
증강 현실 (AR) 및 기타: AR 응용은 현실 세계의 객체나 환경 위에 가상의 정보를 안정적으로 증강하기 위해 정확한 실시간 카메라 자세 추정을 요구한다. SuperGlue의 높은 정확도와 GPU에서의 실시간 처리 능력은 AR 시스템의 추적 안정성과 사용자 경험을 향상시키는 데 직접적으로 기여한다.24

SuperGlue의 등장은 전통적인 SLAM/SfM 파이프라인의 경계를 허물고 있다는 점에서 더욱 중요한 의미를 갖는다. 기존 시스템은 프론트엔드(특징 추출/매칭), 미들엔드(데이터 연관), 백엔드(최적화)가 독립적인 모듈로 설계되고 튜닝되었다.5 SuperGlue는 학습 가능한 미들엔드로서, 프론트엔드와 백엔드의 성능을 모두 극대화하는 방향으로 ’학습’된다. 이러한 성공은 전체 파이프라인을 하나의 거대한 신경망처럼 종단간으로 통합하고 최적화할 수 있다는 가능성을 제시한다. 예를 들어, SuperGlue가 매우 신뢰도 높은 매칭을 제공한다면, 백엔드의 번들 조정(bundle adjustment) 부담이 줄어들거나, 더 적은 수의 키프레임만으로도 안정적인 맵 구축이 가능해질 수 있다. 이는 시스템 설계 철학의 근본적인 변화를 예고하는 것으로, 미래의 SLAM/SfM 시스템은 분리된 모듈의 집합이 아니라, 최종 목표를 위해 모든 구성 요소가 유기적으로 상호작용하며 학습되는 형태로 발전할 수 있다. SuperGlue는 이러한 미래 비전의 실현 가능성을 보여준 첫 번째 성공 사례 중 하나로 평가받는다.

7. 논의 및 미래 전망

7.1 SuperGlue의 기술적 성취 요약

SuperGlue는 특징점 매칭 분야에 몇 가지 중요한 기술적 돌파구를 마련하며 기념비적인 성과를 이루었다.

컨텍스트 기반 추론: GNN을 통해 지역적 특징을 전역적 컨텍스트 내에서 재해석함으로써, 반복 패턴이나 텍스처 부족으로 인한 고질적인 모호성 문제를 해결하고 매칭의 강인성을 획기적으로 향상시켰다.7
종단간 학습 가능한 프레임워크: 매칭 문제를 미분 가능한 최적 수송 문제로 재정의하고 싱크혼 알고리즘을 솔버로 채택함으로써, 자세 추정과 같은 최종 목표로부터의 오차를 역전파하여 매칭 전략 자체를 데이터 기반으로 학습할 수 있는 길을 열었다.6
탁월한 일반화 성능: 특정 데이터셋에 과적합되지 않고, 학습 데이터에서 보지 못한 다양한 환경(실내, 실외, 주간, 야간)과 카메라 조건에서도 일관되게 높은 성능을 보이며 뛰어난 일반화 능력을 입증했다.7

7.2 한계점 및 개선 방향

이러한 성취에도 불구하고 SuperGlue는 몇 가지 내재적인 한계를 가지고 있으며, 이는 후속 연구의 중요한 동기가 되었다.

계산 복잡도: SuperGlue는 두 이미지의 모든 특징점 쌍을 고려하는 완전 그래프(complete graph) 상에서 어텐션을 계산한다. 따라서 특징점의 수를 N이라고 할 때, 계산량과 메모리 사용량이 $O(N^2)$ 으로 증가한다. 이는 수천 개의 특징점을 처리해야 하는 고해상도 이미지나, 실시간성이 매우 중요한 모바일 기기, 드론, 로보틱스 응용에서는 심각한 병목 현상을 유발할 수 있다.29
극심한 저조도 환경에 대한 의존성: SuperGlue 자체는 학습을 통해 어느 정도의 조명 변화에 강인함을 보이지만, 그 성능은 입력으로 사용되는 특징점 추출기의 품질에 크게 의존한다. SuperPoint와 같은 대부분의 특징점 추출기는 극심한 저조도나 거의 빛이 없는 어두운 환경에서는 고품질의 특징점을 안정적으로 추출하지 못하며, 이는 SuperGlue의 전체 성능 저하로 이어진다.7 MSRCR(Multi-Scale Retinex with Color Restoration)과 같은 이미지 전처리 기법을 통해 이를 일부 완화하려는 시도가 있었지만, 근본적인 해결책은 아니다.7

7.3 후속 연구 동향 및 미래 전망

SuperGlue의 성공과 그 한계는 특징점 매칭 분야의 연구를 새로운 방향으로 이끌었다.

효율성 개선: SuperGlue의 $O(N^2)$ 복잡도 문제를 해결하기 위한 연구가 활발히 진행되었다. MaKeGNN은 매칭 가능성이 높은 키포인트들만으로 희소 그래프(sparse graph)를 구성하여 메시지 전달의 효율성을 높이는 방법을 제안했다.29 ClusterGNN은 키포인트들을 클러스터링하여 거친 수준(coarse-level)에서 클러스터 간 매칭을 수행하고 점차 세밀한 수준(fine-level)으로 정교화하는 계층적 접근법을 사용했다.30 가장 큰 성공을 거둔 후속 연구 중 하나인 LightGlue는 SuperGlue의 핵심 아이디어를 유지하면서도, 어텐션 계산을 예측된 매칭 가능성이 있는 영역으로 제한하고 네트워크 구조를 경량화하여 훨씬 빠른 속도를 달성했다.3
Dense Matching으로의 확장: SuperGlue가 희소 특징점(sparse features) 간의 관계를 추론하는 데 성공하자, 이러한 아이디어를 이미지의 모든 픽셀에 적용하려는 시도가 나타났다. 2021년 발표된 LoFTR(Local Feature TRansformer)은 별도의 특징점 검출기 없이, 트랜스포머의 셀프 어텐션과 크로스 어텐션을 사용하여 두 이미지의 모든 픽셀 위치에 대한 조밀한(dense) 대응 관계를 직접 추론한다.19 이는 텍스처가 부족한 벽이나 평면과 같은 영역에서도 매칭을 가능하게 하여 SuperGlue와는 다른 강점을 보여주었다.

SuperGlue의 성공과 그 후속 연구들의 등장은 컴퓨터 비전 분야에서 ’성능’과 ‘효율성’ 사이의 영원한 줄다리기를 명확하게 보여준다. SuperGlue는 계산 복잡도를 감수하고 성능의 새로운 기준을 세우는 학문적 돌파구를 마련했다.30 그러자 연구 커뮤니티의 초점은 즉시 ’어떻게 이 혁신적인 성능을 더 적은 계산 자원으로 달성할 것인가?’라는 실용적인 문제로 이동했다. 이러한 실제적 요구가 LightGlue, ClusterGNN과 같은 효율성에 초점을 맞춘 후속 연구들을 촉발시킨 것이다. 이들은 SuperGlue의 핵심 철학(컨텍스트 집계, 학습 가능한 매칭)은 계승하되, 이를 근사(approximation)하거나 희소화(sparsification)하여 계산량을 줄이는 방법을 탐구했다. 이는 기술 발전의 전형적인 나선형 경로, 즉 한 축(성능)에서의 혁신이 새로운 기준을 만들고, 이는 다른 축(효율성)에서의 혁신을 유도하며, 이 과정이 반복되면서 기술이 성숙해지는 과정을 보여준다. SuperGlue는 이 나선형 발전의 중요한 ’변곡점’을 만든 알고리즘으로 평가될 수 있다.

미래의 특징점 매칭 기술은 계속해서 더 효율적이고, 더 일반적이며, LiDAR, Event Camera 등 다양한 종류의 센서 데이터와 융합되는 방향으로 발전할 것이다. SuperGlue가 제시한 ’학습 기반의 컨텍스트 추론’이라는 패러다임은 이러한 미래 연구의 핵심적인 철학적 기반으로 계속해서 작용하며 이 분야의 발전을 이끌어 나갈 것이다.

8. 결론

SuperGlue는 전통적인 ‘탐지-기술-매칭’ 파이프라인의 근본적인 한계를 그래프 신경망을 통한 컨텍스트 집계와 미분 가능한 최적 수송 문제 해결이라는 혁신적인 접근법으로 돌파한, 특징점 매칭 분야의 기념비적인 알고리즘이다. 이는 단순히 기존 방법보다 높은 정확도를 달성한 것을 넘어, 매칭이라는 조합 최적화 문제를 ’학습 가능한 추론’의 영역으로 끌어들임으로써 이 분야의 연구 방향을 근본적으로 바꾸어 놓았다.

GNN을 통해 특징점 간의 시각적, 공간적 관계를 통합하고, 최적 수송 이론을 통해 매칭되지 않는 점까지 우아하게 처리하는 SuperGlue의 아키텍처는 극심한 시점 및 조명 변화와 같은 도전적인 환경에서도 전례 없는 수준의 강건함과 정확성을 보여주었다. 이는 SLAM, SfM, 시각적 위치 인식과 같은 고수준 컴퓨터 비전 시스템의 설계 철학에 직접적인 영향을 미쳤으며, 전체 파이프라인을 종단간으로 학습하려는 미래 비전의 실현 가능성을 한 걸음 앞당겼다.

결론적으로, SuperGlue의 유산은 그 자체의 뛰어난 성능뿐만 아니라, LoFTR, LightGlue 등 수많은 후속 연구에 깊은 영감을 주며 특징점 매칭 기술의 새로운 시대를 열었다는 점에서 찾을 수 있다. SuperGlue는 앞으로도 오랫동안 이 분야의 연구자들이 넘어서야 할 중요한 기준으로, 그리고 새로운 아이디어를 얻는 원천으로 기억될 것이다.

9. 참고 자료

From SIFT to Transformers: The Evolution of Feature Matching …, https://www.zensai.io/blog/feature-matching-intro
Feature Matching in Computer Vision: Techniques and Applications …, https://www.geeksforgeeks.org/computer-vision/feature-matching-in-computer-vision-techniques-and-applications/
A robust visual-inertial SLAM based deep feature extraction and matching - arXiv, https://arxiv.org/html/2405.03413v2
Performance Analysis of the SIFT Operator for Automatic Feature Extraction and Matching in Photogrammetric Applications, https://pmc.ncbi.nlm.nih.gov/articles/PMC3297131/
This Artificial Intelligence Paper Proposes ‘SuperGlue,’ A Graph Neural Network That Simultaneously Performs Context Aggregation, Matching, And Filtering of Local Features for Wide-Baseline Pose Estimation - MarkTechPost, https://www.marktechpost.com/2022/11/19/this-artificial-intelligence-paper-proposes-superglue-a-graph-neural-network-that-simultaneously-performs-context-aggregation-matching-and-filtering-of-local-features-for-wide-baseline-pose-est/
SuperGlue: Learning Feature Matching With Graph Neural Networks - CVF Open Access, https://openaccess.thecvf.com/content_CVPR_2020/papers/Sarlin_SuperGlue_Learning_Feature_Matching_With_Graph_Neural_Networks_CVPR_2020_paper.pdf
SuperGlue: Learning Feature Matching with Graph Neural Networks - ResearchGate, https://www.researchgate.net/publication/337560349_SuperGlue_Learning_Feature_Matching_with_Graph_Neural_Networks
arXiv:1911.11763v2 [cs.CV] 28 Mar 2020, https://arxiv.org/pdf/1911.11763
SuperGlue: Learning Feature Matching with Graph Neural Networks - Paul-Edouard Sarlin, https://psarlin.com/superglue/doc/superglue_slides.pdf
magicleap/SuperGluePretrainedNetwork: SuperGlue … - GitHub, https://github.com/magicleap/SuperGluePretrainedNetwork
SuperGlue CVPR 2020 - Paul-Edouard Sarlin, https://psarlin.com/superglue/
Scale-invariant feature transform - Wikipedia, https://en.wikipedia.org/wiki/Scale-invariant_feature_transform
Introduction to SIFT( Scale Invariant Feature Transform) | by Deep - Medium, https://medium.com/@deepanshut041/introduction-to-sift-scale-invariant-feature-transform-65d7f3a72d40
Research on Image Matching of Improved SIFT Algorithm Based on Stability Factor and Feature Descriptor Simplification - MDPI, https://www.mdpi.com/2076-3417/12/17/8448
[R] SuperGlue: Learning Feature Matching with Graph Neural Networks - Reddit, https://www.reddit.com/r/MachineLearning/comments/e2giis/r_superglue_learning_feature_matching_with_graph/
Review: SuperGlue: Learning Feature Matching with Graph Neural Networks - Medium, https://medium.com/xulab/review-superglue-learning-feature-matching-with-graph-neural-networks-19d49ca481c4
SuperGlue: Learning Feature Matching With Graph Neural Networks - Papertalk, https://papertalk.org/papertalks/14628
SuperGlue: Learning Feature Matching with Graph Neural Networks (1911.11763v2), https://www.emergentmind.com/papers/1911.11763
Improved Low-Light Image Feature Matching Algorithm Based on the SuperGlue Net Model, https://www.mdpi.com/2072-4292/17/5/905
Graph Attention Networks - Petar Veličković, https://petar-v.com/GAT/
[2403.05054] A Sinkhorn-type Algorithm for Constrained Optimal Transport - arXiv, https://arxiv.org/abs/2403.05054
A simple introduction on Sinkhorn distances | by Jianfeng Wang - Medium, https://amsword.medium.com/a-simple-introduction-on-sinkhorn-distances-d01a4ef4f085
SuperGlue: Learning Feature Matching with … - CVF Open Access, https://openaccess.thecvf.com/content_CVPR_2020/supplemental/Sarlin_SuperGlue_Learning_Feature_CVPR_2020_supplemental.pdf
superglue-models - Shaswata Tripathy - Kaggle, https://www.kaggle.com/models/shaswatatripathy/superglue-models
[1911.11763] SuperGlue: Learning Feature Matching with Graph Neural Networks - arXiv, https://arxiv.org/abs/1911.11763
Building Better Models: Benchmarking Feature Extraction and Matching for Structure from Motion at Construction Sites - MDPI, https://www.mdpi.com/2072-4292/16/16/2974
cvg/Hierarchical-Localization: Visual localization made easy with hloc - GitHub, https://github.com/cvg/Hierarchical-Localization
SuperGlue: Learning Feature Matching with Graph Neural Network - YouTube, https://www.youtube.com/watch?v=95Eysm0IeB0
Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural Network - arXiv, https://arxiv.org/abs/2307.01447
ClusterGNN: Cluster-based Coarse-to-Fine Graph Neural Network for Efficient Feature Matching (2204.11700v2) - Emergent Mind, https://www.emergentmind.com/articles/2204.11700