12.12 이진 교차 엔트로피 손실(Binary Cross-Entropy Loss)

이진 교차 엔트로피 손실(Binary Cross-Entropy, BCE)은 이진 분류 과제와 다중 라벨 분류 과제에서 사용되는 손실 함수이다. 이 손실은 베르누이 분포의 음의 로그 우도와 동등하며, 시그모이드 출력과 결합되어 학습된다. 이 절에서는 BCE의 정의, 통계적 해석, 도함수, 다중 라벨 분류로의 확장, 학술적 특성, 활용 사례를 학습 순서에 따라 기술한다.

1. 정의

이진 분류 과제에서 라벨 $t \in \{0, 1\}$ 과 신경망의 예측 확률 $p = P(y = 1 \mid \mathbf{x})$ 에 대하여 단일 표본의 이진 교차 엔트로피 손실은 다음과 같이 정의된다.

$\ell(p, t) = -\left[ t \log p + (1 - t) \log (1 - p) \right]$

이 손실은 라벨이 1일 때는 $-\log p$ 이고, 라벨이 0일 때는 $-\log (1 - p)$ 이다. 학습 데이터 전체에 대한 평균 손실은 다음과 같이 정의된다.

$\mathcal{L}(\theta) = -\frac{1}{N} \sum_{k=1}^{N} \left[ t^{(k)} \log p^{(k)} + (1 - t^{(k)}) \log (1 - p^{(k)}) \right]$

2. 통계적 해석

이진 교차 엔트로피는 베르누이 분포의 음의 로그 우도와 동등하다. 라벨 $t$ 가 베르누이 분포 $\text{Bernoulli}(p)$ 에서 추출되었다고 가정하면, 다음의 우도가 성립한다.

$P(t \mid p) = p^{t} (1 - p)^{1 - t}$

이 우도의 음의 로그는 위에서 정의된 BCE와 정확히 일치한다. 따라서 BCE의 최소화는 베르누이 분포의 최대 우도 추정과 학술적으로 동등하다.

12.12.3 시그모이드와의 결합

이진 분류의 출력층에서는 일반적으로 시그모이드 함수가 사용된다. 시그모이드의 입력 $z$ 에 대한 BCE 손실은 다음과 같이 표현된다.

$\ell = -\left[ t \log \sigma(z) + (1 - t) \log (1 - \sigma(z)) \right]$

이 결합은 다음과 같은 단순한 기울기를 가진다.

$\frac{\partial \ell}{\partial z} = \sigma(z) - t = p - t$

이 결과는 학술적·실용적으로 매우 중요하며, 학습 신호가 예측 확률과 라벨의 차이에 비례한다. 다중 분류의 소프트맥스와 교차 엔트로피의 결합과 동일한 형태이다.

12.12.4 수치 안정성

시그모이드의 출력이 0 또는 1에 매우 가까울 때 $\log p$ 또는 $\log (1 - p)$ 가 음의 무한대로 발산할 수 있다. 이를 회피하기 위하여 학술적·실용적으로는 다음의 안정화된 형태가 사용된다.

$\ell = \max(z, 0) - z \cdot t + \log(1 + e^{-|z|})$

이 형태는 시그모이드의 결과를 명시적으로 계산하지 않고 BCE를 직접 평가하므로 수치적 안정성을 보장한다. 이 학술적 변형은 binary cross-entropy with logits의 명칭으로 광범위하게 구현되어 있다.

3. 다중 라벨 분류로의 확장

다중 라벨 분류 과제에서는 한 표본이 동시에 여러 라벨을 가질 수 있다. 라벨 $\mathbf{t} = (t_1, t_2, \dots, t_K)^\top \in \{0, 1\}^K$ 와 라벨별 예측 확률 $\mathbf{p} = (p_1, p_2, \dots, p_K)^\top$ 에 대하여, BCE는 라벨별로 독립적으로 적용된다.

$\ell(\mathbf{p}, \mathbf{t}) = -\sum_{i=1}^{K} \left[ t_i \log p_i + (1 - t_i) \log (1 - p_i) \right]$

각 라벨에 대하여 독립적인 시그모이드와 BCE가 적용되므로, 다중 라벨 분류는 본질적으로 $K$ 개의 독립적 이진 분류로 환원된다. 이는 라벨 사이의 의존성이 작거나 무시할 수 있는 경우에 학술적으로 적절한 모형이다.

12.12.6 학술적 특성

BCE의 주요 학술적 특성은 다음과 같다.

비음성: 항상 0 이상의 값을 가진다.
미분 가능성: 모든 점에서 미분 가능하다.
볼록성: 예측 확률 $p$ 에 대하여 볼록 함수이다.
단순한 기울기: 시그모이드와의 결합에서 매우 단순한 기울기 표현이 가능하다.
베르누이 분포의 최대 우도 추정: 통계적 해석이 명확하다.

12.12.7 한계와 변형

BCE는 다음의 학술적 한계와 그에 대한 변형을 가진다.

12.12.7.1 클래스 불균형

학습 데이터의 양성 표본과 음성 표본의 수가 매우 불균형한 경우 BCE는 다수 클래스에 의한 학습 신호가 지배적이 된다. 이를 완화하기 위하여 가중치 BCE (weighted BCE)가 사용되며, 양성 클래스에 더 큰 가중치를 부여한다.

$\ell_{\text{weighted}} = -\left[ w_{+} t \log p + w_{-} (1 - t) \log (1 - p) \right]$

3.1 어려운 표본의 강조

BCE는 모든 표본에 동일한 가중치를 부여하므로, 쉬운 표본이 학습을 지배할 수 있다. Focal loss는 이 한계를 완화하기 위하여 제안된 변형으로, 쉬운 표본의 기여를 감소시킨다.

4. 활용 사례

BCE는 다음의 학술적 활용 사례에서 사용된다.

이진 분류: 두 범주 중 하나를 예측하는 모든 과제
다중 라벨 분류: 한 표본이 여러 라벨을 가질 수 있는 과제
객체 검출: 객체성(objectness) 점수의 학습
의미 분할: 픽셀별 이진 마스크의 학습
추천 시스템: 사용자의 선호 이진 라벨의 모형화

5. 출처 및 버전 정보

Bishop, C. M., Pattern Recognition and Machine Learning, Springer, 2006
Hastie, T., Tibshirani, R., Friedman, J., The Elements of Statistical Learning, Springer, 2009
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
Murphy, K. P., Probabilistic Machine Learning: An Introduction, MIT Press, 2022
Lin, T.-Y., Goyal, P., Girshick, R., He, K., Dollar, P., Focal Loss for Dense Object Detection, IEEE International Conference on Computer Vision, 2017