Booil Jung

SphereFace (Deep Hypersphere Embedding for Face Recognition, CVPR 2017)

딥러닝 기술의 발전은 컴퓨터 비전 분야에 혁명적인 변화를 가져왔으며, 그중에서도 얼굴 인식(Face Recognition)은 가장 괄목할 만한 성과를 보인 영역 중 하나이다. 초기 딥러닝 기반 얼굴 인식 모델들은 이미지넷(ImageNet)과 같은 대규모 이미지 분류 대회에서 성공을 거둔 컨볼루션 신경망(CNN) 구조와 손실 함수를 차용하는 경향이 있었다.1 그러나 이러한 접근법은 얼굴 인식이 가진 고유한 문제의 본질을 정확히 반영하지 못하는 한계를 곧 드러냈다. SphereFace의 등장은 바로 이러한 한계를 극복하고, 얼굴 인식 문제에 대한 근본적인 재정의를 시도했다는 점에서 그 의의를 찾을 수 있다.

일반적인 객체 분류 문제는 ‘Closed-set’ 환경을 가정한다.2 이는 학습 과정에서 사용된 클래스(예: 개, 고양이)와 테스트 과정에서 분류해야 할 클래스가 동일한 상황을 의미한다. 그러나 얼굴 인식은 본질적으로 ‘Open-set’ 문제에 해당한다.3 즉, 시스템은 학습 데이터에 포함되지 않았던 미지의 인물을 식별하거나 검증할 수 있어야 한다. 이러한 Open-set 환경에서는 단순히 주어진 클래스로 ‘분류’하는 능력을 넘어, 각 인물의 고유한 특징을 추출하여 다른 인물과 명확히 ‘구별’할 수 있는 판별적인 특징(Discriminative Feature)을 학습하는 것이 핵심 과제가 된다.2

이상적인 얼굴 특징 임베딩은 특정 메트릭 공간(metric space) 내에서 “동일 클래스 내의 최대 거리(maximal intra-class distance)가 다른 클래스 간의 최소 거리(minimal inter-class distance)보다 작아야 한다”는 엄격한 기준을 만족해야 한다.3 이는 곧, 같은 사람의 얼굴 사진들은 특징 공간에서 서로 가깝게 모여야 하고(intra-class compactness), 다른 사람들의 얼굴 사진들은 서로 멀리 떨어져야 함(inter-class separability)을 의미한다. 따라서 Open-set 얼굴 인식은 본질적으로 분류(Classification) 문제라기보다는 메트릭 러닝(Metric Learning) 문제에 가깝다.

이러한 문제 정의와 해결 도구 사이의 근본적인 불일치는 기존 접근법들의 한계를 설명하는 핵심 열쇠가 된다. 초기 얼굴 인식 연구들이 ImageNet 분류 문제에서 검증된 Softmax 손실 함수를 관성적으로 채택했지만, Softmax는 근본적으로 Closed-set 분류를 위해 설계된 도구였다.1 얼굴 인식의 본질이 Open-set 식별, 즉 메트릭 러닝임에도 불구하고 Closed-set 분류 도구를 사용함으로써 발생한 불일치는 결국 판별력 부족이라는 성능 한계로 귀결되었다. SphereFace의 등장은 단순한 손실 함수 개선을 넘어, 얼굴 인식 문제를 ‘분류’에서 ‘각도 기반 메트릭 러닝’으로 재정의하려는 패러다임 전환의 시도였으며, 이는 후속 연구들의 폭발적인 발전을 이끈 촉매제가 되었다.

가장 널리 사용되는 분류 손실 함수인 Softmax 손실 함수는 신경망의 마지막 출력(logit)을 확률 분포로 변환하여, 정답 클래스에 해당하는 확률을 최대화하는 방향으로 모델을 학습시킨다.6 이 방식은 클래스 간의 경계를 학습하여 특징을 ‘분리 가능하게(separable)’ 만드는 데는 매우 효과적이다.

하지만 Softmax 손실 함수는 판별적인 특징을 학습하도록 명시적으로 강제하지 않는다는 근본적인 한계를 내포한다.8 즉, 클래스 간의 분리를 달성하는 데만 초점을 맞출 뿐, 클래스 내의 분산을 줄이거나(intra-class compactness) 클래스 간의 거리를 최대화(inter-class separability)하도록 유도하지 않는다. 그 결과, 학습된 특징들은 결정 경계 주변에 아슬아슬하게 분포하는 경향을 보이며, 이는 Open-set 환경에서 새로운 데이터에 대한 일반화 성능을 저하시키는 주요 원인이 된다. 특히 수백만 개의 신원을 구별해야 하는 대규모 얼굴 인식 문제에서 이러한 판별력의 부재는 심각한 성능 저하로 이어진다.1

Softmax의 한계를 극복하기 위한 대안으로 Triplet Loss와 같은 거리 기반 손실 함수가 제안되었다.1 Triplet Loss는 기준 샘플(anchor), 동일 클래스의 긍정 샘플(positive), 다른 클래스의 부정 샘플(negative)로 구성된 ‘트리플렛’을 이용하여 학습한다. 손실 함수는 anchor와 positive 사이의 거리는 가깝게, anchor와 negative 사이의 거리는 특정 마진(margin) 이상으로 멀어지도록 직접적으로 강제한다. 이 방식은 이론적으로 판별적인 특징 학습에 매우 적합하다.

그러나 Triplet Loss는 실제 학습 과정에서 심각한 도전 과제에 직면한다. 모델의 학습 수준에 맞는 효과적인 트리플렛을 구성하는 것이 매우 어렵고 계산 비용이 많이 든다.11 너무 쉬운 트리플렛(이미 마진 조건을 만족하는 경우)은 학습에 기여하지 못하고, 너무 어려운 트리플렛은 학습을 불안정하게 만들 수 있다. 따라서 대규모 데이터셋에서 유의미한 트리플렛을 효율적으로 샘플링하는 과정(triplet mining)은 그 자체로 복잡한 문제가 되며, 이는 학습의 수렴 속도와 최종 성능에 큰 영향을 미친다.12

결론적으로, Softmax는 구현이 간단하지만 판별력이 부족하고, Triplet Loss는 판별력은 높지만 학습이 복잡하고 불안정하다는 명확한 장단점을 가지고 있었다. 얼굴 인식 연구 분야는 이 두 가지 접근법의 장점을 결합하고 단점을 보완할 수 있는 새로운 패러다임의 등장을 절실히 요구하고 있었고, SphereFace는 바로 그 지점에서 해답을 제시했다.

SphereFace는 기존의 유클리드 거리 기반의 접근법에서 벗어나, 특징 공간을 ‘각도(angle)’의 관점에서 재해석함으로써 얼굴 인식 연구에 새로운 방향을 제시했다. 이는 단순히 새로운 손실 함수를 제안한 것을 넘어, 얼굴 데이터가 가진 내재적인 기하학적 구조를 학습 과정에 적극적으로 반영하려는 철학적 전환을 의미했다.

얼굴 이미지로부터 추출된 고차원 특징 벡터에서 신원 정보는 벡터의 크기(magnitude)보다는 방향(direction)에 더 강하게 인코딩되어 있다는 직관적인 가정이 SphereFace의 출발점이다. 조명, 포즈, 표정의 변화는 특징 벡터의 크기에 영향을 줄 수 있지만, 개인의 고유한 정체성은 벡터의 방향성에 더 일관되게 나타날 수 있다.

이러한 가정하에 특징 벡터 $\mathbf{x}$를 L2 정규화(normalization)하여 단위 초구(unit hypersphere) 상에 투영하면, 모든 특징 벡터는 동일한 크기( $|\mathbf{x}|=1$ )를 갖게 된다. 이 초구 위에서 두 특징 벡터 간의 유클리드 거리는 두 벡터가 이루는 각도(angular distance)와 단조적인(monotonic) 관계를 맺는다. 즉, 각도가 작을수록 유클리드 거리가 가깝고, 각도가 클수록 유클리드 거리가 멀어진다. 따라서 특징 공간을 유클리드 공간이 아닌 초구 다양체로 제한하고, 이 공간 위에서 직접적으로 ‘각도 마진(angular margin)’을 부여하는 것이 더 직관적이고 효과적인 판별력 확보 전략이 될 수 있다.4

이러한 접근은 얼굴 데이터의 실제 분포와 모델의 학습 목표를 일치시키려는 근본적인 시도였다는 점에서 중요한 의미를 가진다. 기존 손실 함수들이 특징 공간을 아무런 제약이 없는 유클리드 공간으로 가정한 반면, SphereFace는 “얼굴은 다양체 상에 존재한다(faces also lie on a manifold)”는 사전 지식(prior)을 학습에 명시적으로 통합했다.4 A-Softmax 손실 함수는 그 자체로 초구 다양체 위에서 특징들이 만족해야 할 기하학적 제약 조건을 정의한다.4 이는 데이터의 내재적 구조를 학습 과정에 반영하는 ‘기하학적 딥러닝(Geometric Deep Learning)’의 철학을 얼굴 인식 분야에 성공적으로 도입한 사례로 평가할 수 있으며, 이를 통해 임베딩 공간의 해석 가능성과 모델의 일반화 성능을 동시에 향상시키는 결과를 가져왔다.

SphereFace의 궁극적인 목표는 학습된 얼굴 특징 임베딩이 초구 다양체(hypersphere manifold) 상에서 최대의 판별력을 갖도록 하는 것이다. 이를 달성하기 위해 두 가지 구체적인 목표를 설정한다.4

클래스 내 조밀성(Intra-class Compactness): 같은 사람에 해당하는 모든 얼굴 특징 벡터들이 초구 위에서 매우 좁은 각도 범위 내에 밀집하도록 만든다.
클래스 간 분리성(Inter-class Separability): 서로 다른 사람에 해당하는 특징 벡터 군집들이 초구 위에서 가능한 큰 각도 차이를 두고 분리되도록 만든다.

이 두 가지 목표를 동시에 달성하기 위해 SphereFace는 Angular Softmax (A-Softmax) 손실 함수를 제안한다.3 A-Softmax는 전통적인 Softmax 손실 함수를 각도 공간으로 확장하고, 여기에 명시적인 각도 마진을 도입하여 클래스 간의 결정 경계를 더욱 엄격하게 만든다. 이를 통해 모델은 단순히 클래스를 구분하는 것을 넘어, 각 클래스의 특징을 초구 위의 특정 영역에 강하게 군집시키도록 학습된다.

SphereFace의 핵심은 A-Softmax 손실 함수에 있으며, 이는 전통적인 Softmax 손실 함수를 두 단계에 걸쳐 변형함으로써 유도된다. 각 단계의 수학적 변환은 명확한 기하학적 의미를 가지며, 최종적으로 초구 위에서의 판별적인 특징 학습을 가능하게 한다.

전통적인 Softmax 손실 함수는 $i$번째 클래스에 대한 예측 확률 $p_i$를 다음과 같이 계산한다.2 $p_i = \frac{e^{f_{y_i}}}{\sum_j e^{f_j}} = \frac{e^{\mathbf{W}_{y_i}^T \mathbf{x}_i + b_{y_i}}}{\sum_j e^{\mathbf{W}_j^T \mathbf{x}_i + b_j}}$ 여기서 $\mathbf{x}_i$는 $i$번째 샘플의 특징 벡터, $\mathbf{W}_j$와 $b_j$는 마지막 완전 연결 계층(fully connected layer)의 $j$번째 클래스에 대한 가중치 벡터와 편향(bias)이다. 이진 분류(binary classification)의 경우, 결정 경계(decision boundary)는 $f_1 = f_2$, 즉 $(\mathbf{W}_1 - \mathbf{W}_2)^T \mathbf{x} + (b_1 - b_2) = 0$에 의해 결정된다.

SphereFace는 이 식을 각도 공간으로 변환하기 위해 두 가지 수정을 가한다.9

가중치 정규화(Weight Normalization): 모든 가중치 벡터 $\mathbf{W}_j$의 L2-norm을 1로 정규화한다. 즉, $|\mathbf{W}_j| = 1$로 만든다.
편향 제거(Zero Bias): 모든 편향 $b_j$를 0으로 설정한다.

이 두 가지 수정을 적용하면, 내적(dot product) $\mathbf{W}_j^T \mathbf{x}_i$는 다음과 같이 재해석될 수 있다.

$\mathbf{W}_j^T \mathbf{x}_i = \|\mathbf{W}_j\| \|\mathbf{x}_i\| \cos(\theta_{j,i}) = \|\mathbf{x}_i\| \cos(\theta_{j,i})$ 여기서 $\theta_{j,i}$는 특징 벡터 $\mathbf{x}_i$와 가중치 벡터 $\mathbf{W}_j$ 사이의 각도이다. 이제 결정 경계는 $|\mathbf{x}| \cos(\theta_1) = |\mathbf{x}| \cos(\theta_2)$, 즉 $\cos(\theta_1) = \cos(\theta_2)$가 된다. 이는 결정 경계가 더 이상 벡터의 크기에 의존하지 않고 오직 특징 벡터와 가중치 벡터 사이의 ‘각도’에 의해서만 결정됨을 의미한다.2 이렇게 변형된 손실 함수를 Modified Softmax Loss라고 한다.

Modified Softmax는 특징을 각도 공간에서 분리하지만, 여전히 결정 경계 주변에 특징들이 밀집할 수 있는 문제를 안고 있다. SphereFace는 이 문제를 해결하기 위해 결정 경계 자체에 ‘마진(margin)’을 도입한다.

클래스 1에 속한 샘플 $\mathbf{x}$를 올바르게 분류하기 위한 기존 조건은 $\cos(\theta_1) > \cos(\theta_2)$였다. A-Softmax는 이 조건을 정수 $m \ge 1$을 이용하여 $\cos(m\theta_1) > \cos(\theta_2)$로 강화한다.4 코사인 함수는 $[0, \pi]$ 구간에서 단조 감소하므로, 이 새로운 조건은 $m\theta_1 < \theta_2$를 의미한다. 즉, 클래스 1의 특징 벡터는 해당 가중치 벡터 $\mathbf{W}_1$에 훨씬 더 가까운 각도를 가져야만 올바르게 분류될 수 있다. 이는 각도 공간에 $m$이라는 인자를 곱하는 형태로 마진을 부여하므로 곱셈적 각도 마진(Multiplicative Angular Margin)이라 불린다.

이 아이디어를 일반적인 다중 클래스(multi-class) Softmax 손실 함수에 적용하면 A-Softmax Loss가 정의된다.

$L_i = -\log\left(\frac{e^{\|\mathbf{x}_i\|\psi(\theta_{y_i, i})}}{e^{\|\mathbf{x}_i\|\psi(\theta_{y_i, i})} + \sum_{j \neq y_i} e^{\|\mathbf{x}_i\|\cos(\theta_{j, i})}}\right)$ 여기서 $y_i$는 정답 클래스이며, $\psi(\theta)$는 $\cos(m\theta)$를 단조 감소 함수로 만들기 위해 도입된 함수이다. $\cos(m\theta)$는 주기가 $2\pi/m$으로 원래 코사인 함수보다 짧아 비단조적(non-monotonic)이기 때문에, 최적화를 어렵게 만든다. 이를 해결하기 위해 $\psi(\theta)$는 각 구간에서 단조성을 보장하도록 다음과 같이 정의된다.2

$\psi(\theta) = (-1)^k \cos(m\theta) - 2k, \quad \theta \in \left[\frac{k\pi}{m}, \frac{(k+1)\pi}{m}\right]$ 이 $\psi(\theta)$ 항은 A-Softmax의 수학적 우아함에도 불구하고, 최적화 관점에서는 불안정성을 내포하는 근본적인 원인이 된다. $\cos(m\theta)$라는 핵심 아이디어는 기하학적으로는 명확한 마진을 제공했지만, 최적화(optimization)의 관점에서는 다루기 힘든(hard-to-optimize) 항이었다. $m$이 커질수록 $\cos(m\theta)$의 주기는 짧아지고 함수의 형태는 복잡해진다. 이는 손실 함수의 표면(loss landscape)을 매우 비볼록(non-convex)하고 험준하게 만들어, 경사 하강법(gradient descent)이 지역 최솟값(local minima)에 쉽게 빠지거나 발산하게 만든다. 특히 학습 초기에 각도 $\theta$가 큰 상태에서는 $\cos(m\theta)$의 기울기가 매우 가파르거나 부호가 자주 바뀌어 학습을 극도로 불안정하게 만들 수 있다.17 이 때문에 SphereFace는 학습 초기에 $m$을 점진적으로 증가시키는 어닐링(annealing) 전략이나 다른 손실 함수와 결합하는 하이브리드 방식이 필수적이었다.17 이 수학적 특성과 최적화의 어려움 사이의 괴리는 SphereFace의 가장 큰 한계였으며, 이는 후속 연구들이 $\cos(\theta)-m$ (CosFace) 또는 $\cos(\theta+m)$$ (ArcFace)과 같이 더 다루기 쉬운(easy-to-optimize) 마진을 제안하게 된 직접적인 동기가 되었다.

A-Softmax 손실 함수의 학습 효과는 초구 다양체 위에서 특징 분포를 시각화했을 때 명확하게 드러난다.

Original Softmax: 특징들을 분리 가능한(separable) 영역으로 나누는 데 그치며, 결정 경계 주변에 특징들이 겹치거나 가깝게 분포할 수 있다.
Modified Softmax: 결정 경계가 각도에 의해 정의되므로, 특징들이 가중치 벡터를 기준으로 방사형으로 분포하며 분리된다. 하지만 마진이 없어 여전히 클래스 간 구분이 명확하지 않을 수 있다.
A-Softmax (SphereFace): 각 클래스에 해당하는 가중치 벡터 $\mathbf{W}_j$를 중심으로 명확한 ‘각도 마진’을 가진 원뿔(cone) 형태의 결정 영역을 형성한다.4 학습 과정에서 모델은 동일 클래스의 특징들을 이 원뿔 안에 최대한 밀집시키고, 다른 클래스의 특징들은 원뿔 바깥으로 밀어내도록 강제된다.

이 과정은 모든 특징 벡터를 단위 초구(unit hypersphere) 상에 투영하고, 클래스 간 측지 거리(Geodesic Distance, 초구 표면 위의 최단 거리)를 최대화하며 클래스 내 측지 거리를 최소화하는 것과 기하학적으로 동일한 효과를 가진다.4 즉, A-Softmax는 초구라는 기하학적 공간 위에서 직접적으로 메트릭 러닝을 수행하는 것이다. 이처럼 학습된 특징들이 초구 위에서 이상적인 분포를 형성한다는 의미에서 저자들은 이 모델을 SphereFace라고 명명했다.4

SphereFace가 제시한 ‘각도 마진’이라는 패러다임은 이후 CosFace, ArcFace와 같은 혁신적인 후속 연구들로 이어졌다. 이들 손실 함수는 모두 SphereFace의 기본 철학을 공유하지만, 마진을 적용하는 방식에서 근본적인 차이를 보이며, 이는 학습 안정성과 최종 성능에 결정적인 영향을 미쳤다.

세 가지 주요 마진 기반 손실 함수의 핵심적인 차이는 마진을 어느 공간에서 어떤 방식으로 적용하는지에 있다.

SphereFace (A-Softmax): 곱셈적 각도 마진 (Multiplicative Angular Margin)
- 마진을 각도($\theta$) 공간에 정수 $m$을 곱하는 방식으로 적용한다 ($\cos(m\theta)$).20
- 이는 기하학적으로 마진의 크기가 각도 $\theta$에 따라 비선형적으로 변함을 의미한다. $\theta$가 작을 때는 마진이 작고, $\theta$가 클 때는 마진이 커지는 효과가 있다.
CosFace (LMCL - Large Margin Cosine Loss): 덧셈적 코사인 마진 (Additive Cosine Margin)
- 마진을 코사인($\cos(\theta)$) 공간에 상수 $m$을 빼는 방식으로 적용한다 ($\cos(\theta) - m$).20
- 이는 모든 샘플에 대해 코사인 유사도 값에 동일한 패널티를 부여하는 방식이다. 구현이 간단하고 SphereFace보다 안정적인 학습이 가능하다.
ArcFace (AAML - Additive Angular Margin Loss): 덧셈적 각도 마진 (Additive Angular Margin)
- 마진을 각도($\theta$) 공간에 상수 $m$을 더하는 방식으로 적용한다 ($\cos(\theta + m)$).20
- 이 방식은 초구 위에서의 측지 거리(geodesic distance)에 직접적으로 마진을 부여하는 것과 동일한 의미를 가진다. 따라서 기하학적으로 가장 직관적이며, 모든 각도 $\theta$에 대해 일정한(constant) 각도 마진을 보장한다.17

이러한 마진 적용 방식의 차이는 결정 경계의 형태에 직접적인 영향을 미친다. ArcFace의 선형적인 각도 마진은 가장 일관되고 안정적인 결정 경계를 형성하여, 후속 연구에서 가장 우수한 성능과 안정성을 보이는 기반이 되었다.

SphereFace의 곱셈적 마진은 앞에서 분석했듯이 $\cos(m\theta)$ 함수의 복잡성으로 인해 심각한 학습 불안정성을 야기했다.17 이를 완화하기 위해 어닐링(annealing)과 같은 추가적인 학습 전략이 필요했으며, 이는 모델의 구현과 사용을 복잡하게 만들었다.9

반면, CosFace와 ArcFace가 채택한 덧셈적 마진은 손실 함수의 표면을 훨씬 더 완만하게 만들어 안정적인 수렴을 보장했다.17 특히 ArcFace는 $\arccos$ 함수를 사용하여 각도를 직접 계산한 후 마진을 더하는 직관적인 방식으로 구현이 매우 간단하며, 별도의 학습 트릭 없이도 다양한 벤치마크에서 가장 우수한 성능(State-Of-The-Art, SOTA)을 달성했다.17

SphereFace, CosFace, ArcFace의 핵심적인 차이점과 특징을 요약하면 다음 표와 같다. 이 표는 각 기술의 원리와 장단점을 한눈에 비교하여 얼굴 인식 손실 함수의 기술적 진화 과정을 명확하게 보여준다.

특징 (Feature)	SphereFace (A-Softmax)	CosFace (LMCL)	ArcFace (AAML)
핵심 아이디어	각도 공간에 곱셈 방식의 마진 도입	코사인 공간에 덧셈 방식의 마진 도입	각도 공간에 덧셈 방식의 마진 도입
마진 적용 방식	Multiplicative Angular Margin	Additive Cosine Margin	Additive Angular Margin
수식 (Target Logit)	$\rvert\rvert\mathbf{x}\rvert\rvert \psi(\theta_{y_i})$	$s \cdot (\cos(\theta_{y_i}) - m)$	$s \cdot \cos(\theta_{y_i} + m)$
장점	각도 마진 개념 최초 도입, 명확한 기하학적 해석	SphereFace 대비 구현 용이, 안정적 학습	직관적, 측지 거리에 직접 대응, 가장 안정적인 학습 및 SOTA 성능
단점	학습 불안정, $m$이 정수여야 함, 어닐링 필요	최적의 마진이 각도에 따라 변함	-

SphereFace의 이론적 우수성은 다양한 표준 벤치마크 데이터셋에서의 실험 결과를 통해 실증적으로 입증되었다. 특히, 제한된 데이터로 학습했음에도 불구하고 당시 최고 수준의 성능을 달성하며 A-Softmax 손실 함수의 효율성을 증명했다.

SphereFace는 LFW, YTF, MegaFace Challenge와 같은 주요 얼굴 인식 벤치마크에서 당시 SOTA에 근접하거나 이를 뛰어넘는 성능을 기록했다.3

LFW (Labeled Face in the Wild): 공개 데이터셋인 CASIA-WebFace(약 0.49M 이미지)로 학습한 단일 모델로 99.42%의 정확도를 달성했다. 이는 당시 동일 데이터셋으로 학습한 모델 중 최고 성능이었으며, 수억 장의 비공개 데이터셋으로 학습한 Google의 FaceNet과 비견될 만한 결과였다.25
MegaFace Challenge: 가장 어려운 대규모 얼굴 인식 벤치마크 중 하나인 MegaFace에서 SphereFace는 작은 학습 데이터셋 프로토콜(0.5M 미만) 하에서 1백만 개의 방해자(distractor)가 있는 경우 75.766%의 Rank-1 식별 정확도를 기록했다. 이는 2위 그룹을 큰 차이로 앞서는 결과였으며, 훨씬 더 큰 데이터셋으로 학습한 모델들보다도 우수한 성능이었다.25

이러한 결과는 SphereFace의 성공이 단순히 ‘데이터의 양’에 의존한 것이 아니라, ‘학습 목표의 질’이 더 중요할 수 있다는 강력한 증거를 제시했다. 당시 딥러닝 모델의 성능은 학습 데이터의 규모에 크게 의존하는 경향이 있었지만, SphereFace는 훨씬 작은 공개 데이터셋을 사용하고도 대규모 데이터셋 기반 모델들과 경쟁력 있는 성능을 달성했다. 이는 A-Softmax라는 질적으로 우수한 손실 함수가 데이터의 양적 우위를 극복했음을 의미한다. 즉, 손실 함수가 문제의 본질(Open-set, 각도 기반 분리)을 더 정확하게 반영했기 때문에 더 효율적인 학습이 가능했던 것이다. 이 사례는 딥러닝 연구에서 무조건적인 데이터 스케일업 경쟁을 넘어, 손실 함수 설계와 같이 모델의 근본적인 학습 목표를 정교화하는 것의 중요성을 일깨워주었다.

A-Softmax의 핵심 하이퍼파라미터인 $m$은 각도 마진의 크기를 직접적으로 제어한다. 이론적으로 $m$이 커질수록 더 큰 마진이 요구되므로, 모델은 더 판별적인 특징을 학습해야 한다. SphereFace 논문의 실험 결과는 이러한 이론적 예측을 뒷받침한다.

실험에 따르면, $m$ 값이 1(Modified Softmax)에서 2, 3, 4로 증가함에 따라 LFW와 YTF 데이터셋에서의 정확도가 꾸준히 향상되었다.25 특히 $m=4$ 이상일 때 클래스 구분이 명확해지기 시작하며 가장 좋은 성능을 보였다. 이는 A-Softmax가 도입한 각도 마진이 실제로 특징의 판별력을 높이는 데 효과적임을 보여주는 직접적인 증거이다.

하지만 $m$ 값을 무한정 키울 수는 없다. $m$이 너무 커지면 학습 목표가 지나치게 어려워져 모델이 수렴하지 못하는 문제가 발생한다.25 이는 앞서 분석한 $\cos(m\theta)$ 항의 최적화 어려움과 직접적으로 연관된다. 이처럼 이론적 이상과 실제 학습 가능성 사이의 균형을 맞추는 것이 A-Softmax를 효과적으로 활용하는 데 중요한 과제임을 시사한다.

SphereFace는 얼굴 인식 분야에 혁신적인 아이디어를 제시했지만, 기술적으로 완벽한 해결책은 아니었다. 그러나 역설적으로 SphereFace가 가졌던 명확한 한계는 후속 연구의 방향을 제시하는 이정표가 되어 분야 전체의 발전을 촉진하는 결정적인 계기가 되었다.

SphereFace의 가장 치명적인 약점은 학습 불안정성이다.18 그 근원은 핵심 아이디어인 곱셈적 각도 마진, 즉$\cos(m\theta)$ 항의 복잡한 수학적 특성에 있다.9 이 항은 손실 함수의 표면을 매우 비볼록하고 험준하게 만들어, 학습 과정에서 기울기가 폭발하거나 소실되기 쉬우며 지역 최솟값에 빠질 위험이 컸다.

이러한 불안정성 때문에 SphereFace를 안정적으로 학습시키기 위해서는 학습 초기에 마진 $m$을 1로 시작하여 점진적으로 늘려가는 어닐링(annealing) 전략이나, 기존 Softmax 손실 함수와 결합하는 하이브리드 손실 함수 설계가 필수적이었다.18 이는 모델의 학습 과정을 복잡하게 만들고 추가적인 하이퍼파라미터 튜닝을 요구하여, 모델의 사용 편의성과 일반성을 저해하는 요소로 작용했다.

이러한 명백한 한계에도 불구하고, SphereFace가 얼굴 인식 연구에 남긴 유산은 지대하다.

첫째, SphereFace는 얼굴 특징 학습의 주 무대를 유클리드 공간에서 각도 공간(초구 다양체)으로 옮겨오는 패러다임 전환을 성공적으로 이끌었다.

둘째, ‘각도 마진’이라는 개념을 주류로 만들어, 이후의 모든 SOTA 얼굴 인식 모델들이 이 개념을 기반으로 발전하게 되는 토대를 마련했다.12 CosFace, ArcFace 등 현재 가장 널리 사용되는 방법론들은 모두 SphereFace가 제시한 철학적 기반 위에서, 학습 불안정성이라는 문제를 해결하기 위해 마진 적용 방식을 개선한 결과물이다.28 SphereFace가 없었다면 현대의 얼굴 인식 기술은 지금과는 다른 방향으로 발전했을 것이다.

이처럼 연구의 ‘한계’가 성공만큼이나 학문적 진보에 중요하게 기여할 수 있음을 SphereFace는 명확히 보여준다. SphereFace의 ‘학습 불안정성’이라는 명백한 한계는 후속 연구자들에게 “SphereFace의 좋은 아이디어(각도 마진)는 유지하되, 어떻게 하면 안정적으로 학습시킬 수 있을까?”라는 매우 구체적이고 명확한 연구 문제를 제시했다. CosFace는 이 문제에 대해 ‘코사인 공간에서의 덧셈 마진’이라는 답을, ArcFace는 ‘각도 공간에서의 덧셈 마진’이라는 더 나은 답을 내놓았다. 만약 SphereFace가 완벽했다면, 이와 같은 활발한 후속 연구가 등장하지 않았을 수도 있다. SphereFace의 ‘불완전함’이 오히려 더 나은 해결책을 찾기 위한 학문적 경쟁과 탐구를 촉발시킨 것이다.

결론적으로 SphereFace는 그 자체로 완벽한 솔루션은 아니었지만, 얼굴 인식 연구 분야에 ‘올바른 질문’을 던진 선구자적 연구였다. 그 질문은 바로 “어떻게 하면 특징 공간의 기하학적 구조를 직접 제어하여 특징의 판별력을 극대화할 수 있는가?”였다.

SphereFace는 이 질문에 대해 ‘초구 위에서의 곱셈적 각도 마진’이라는 첫 번째 답안을 제시했다. 비록 그 답안에는 ‘학습 불안정성’이라는 결함이 있었지만, 그 질문 자체가 후속 연구의 방향을 결정짓는 이정표가 되었다. SphereFace의 가장 큰 유산은 성공적인 성능 지표뿐만 아니라, 명확하게 정의된 ‘한계점’ 그 자체에 있다. 이 한계점은 후속 연구의 ‘디딤돌’ 역할을 했으며, 과학적 진보가 선형적인 성공의 누적이 아니라, 문제 제기, 불완전한 해결, 그리고 그 해결책의 한계를 극복하는 반복적인 과정을 통해 이루어짐을 보여주는 대표적인 사례이다. 따라서 SphereFace는 단순히 과거의 한 기술로 평가될 것이 아니라, 현대 얼굴 인식 기술의 근간을 마련하고 분야 전체의 발전을 한 단계 끌어올린 역사적 의의를 지닌 연구로 재평가되어야 한다.

얼굴 인식 알고리즘 선행 연구를 소개합니다

카카오엔터프라이즈 AI Research, accessed August 20, 2025, https://kakaoenterprise.github.io/deepdive/200723

[논문리뷰] SphereFace 설명 (Deep Hypershpere Embedding for …, accessed August 20, 2025, https://minimin2.tistory.com/157

SphereFace: 얼굴 인식을 위한 깊은 초구면 임베딩

최신 연구 논문 …, accessed August 20, 2025, https://hyper.ai/kr/papers/1704.08063

SphereFace: Deep Hypersphere Embedding for Face Recognition - CVF Open Access, accessed August 20, 2025, https://openaccess.thecvf.com/content_cvpr_2017/papers/Liu_SphereFace_Deep_Hypersphere_CVPR_2017_paper.pdf
[1704.08063] SphereFace: Deep Hypersphere Embedding for Face Recognition - arXiv, accessed August 20, 2025, https://arxiv.org/abs/1704.08063
ArcFace: Additive Angular Margin Loss for Deep Face Recognition(2019) review - 헤헤, accessed August 20, 2025, https://cumulu-s.tistory.com/9
Softmax function - Wikipedia, accessed August 20, 2025, https://en.wikipedia.org/wiki/Softmax_function
[논문리뷰]ArcFace: Additive Angular Margin Loss for Deep Face Recognition - IT_World, accessed August 20, 2025, https://niniit.tistory.com/31
Angular Softmax Loss for End-to-end Speaker Verification - arXiv, accessed August 20, 2025, https://arxiv.org/pdf/1806.03464
[metric loss] additive angular margin loss - whiteBoard - 티스토리, accessed August 20, 2025, https://pajamacoder.tistory.com/17
Deep Learning Basics - 2 : Loss-Function 장단점 및 한계점 - rldhkstopic - 티스토리, accessed August 20, 2025, https://rldhkstopic.tistory.com/57
Angular Softmax Loss for End-to-end Speaker Verification - ResearchGate, accessed August 20, 2025, https://www.researchgate.net/publication/332242485_Angular_Softmax_Loss_for_End-to-end_Speaker_Verification
SphereFace: Deep Hypersphere Embedding for Face Recognition - AI@NSU, accessed August 20, 2025, https://ai.nsu.ru/attachments/download/2622
SphereFace: Deep Hypersphere Embedding for Face Recognition - ResearchGate, accessed August 20, 2025, https://www.researchgate.net/publication/386783886_SphereFace_Deep_Hypersphere_Embedding_for_Face_Recognition
Cross-Entropy와 Softmax의 미분 - velog, accessed August 20, 2025, https://velog.io/@hjk1996/Cross-Entropy%EC%99%80-Softmax%EC%9D%98-%EB%AF%B8%EB%B6%84
(PDF) Additive Margin Softmax for Face Verification - ResearchGate, accessed August 20, 2025, https://www.researchgate.net/publication/322568299_Additive_Margin_Softmax_for_Face_Verification
ArcFace: Additive Angular Margin Loss for Deep Face Recognition, accessed August 20, 2025, https://iam.jesse.kim/study/papers/arc-face
ArcFace: Additive Angular Margin Loss for Deep Face Recognition, accessed August 20, 2025, https://www.alphaxiv.org/overview/1801.07698v4
Geometric representation of angular loss functions (a) SphereFace [8] - ResearchGate, accessed August 20, 2025, https://www.researchgate.net/figure/Geometric-representation-of-angular-loss-functions-a-SphereFace-8-b-CosFace-9_fig5_392164131
[ 논문리뷰 ] ArcFace: Additive Angular Margin Loss for Deep Face …, accessed August 20, 2025, https://tori-notepad.tistory.com/26
ArcFace(2019) 리뷰 - velog, accessed August 20, 2025, https://alpha.velog.io/@jqdjhy/ArcFace2019-%EB%A6%AC%EB%B7%B0
[논문 요약] 초간단 5줄 요약 ArcFace: Additive Angular Margin Loss for Deep Face Recognition / 얼굴인식 - AI 연구하는 깨굴이 - 티스토리, accessed August 20, 2025, https://hsyaloe.tistory.com/114

Comparing Angular Margin Loss Functions

by zestyoreo - Medium, accessed August 20, 2025, https://zestyoreo9.medium.com/comparing-angular-margin-loss-functions-31f62c6f4032

Open-Set Face Recognition: SphereFace, CosFace, and ArcFace

Machine Learning Tech Blog, accessed August 20, 2025, https://jiryang.github.io/2020/06/05/Openset-face-recognition/

[Review] SphereFace: Deep Hypersphere Embedding for … - Tmax.ai, accessed August 20, 2025, https://tmaxai.github.io/post/review_SphereFace/
SphereFace Revived: Unifying Hyperspherical Face Recognition, accessed August 20, 2025, https://discovery.researcher.life/article/sphereface-revived-unifying-hyperspherical-face-recognition/d8874b8d471337a4871b420ec865105f
[2109.05565] SphereFace Revived: Unifying Hyperspherical Face Recognition - arXiv, accessed August 20, 2025, https://arxiv.org/abs/2109.05565
Unifying Margin-Based Softmax Losses in Face Recognition - CVF Open Access, accessed August 20, 2025, https://openaccess.thecvf.com/content/WACV2023/papers/Zhang_Unifying_Margin-Based_Softmax_Losses_in_Face_Recognition_WACV_2023_paper.pdf