12.11 교차 엔트로피 손실(Cross-Entropy Loss)
교차 엔트로피 손실(cross-entropy loss)은 다중 분류 과제에서 가장 광범위하게 사용되는 손실 함수이다. 교차 엔트로피는 정보 이론에서 두 확률 분포 사이의 거리를 측정하는 양으로 정의되며, 학술적으로는 범주형 분포의 음의 로그 우도와 동등하다. 이 절에서는 교차 엔트로피의 정의, 정보 이론적 해석, 도함수, 소프트맥스와의 결합, 학술적 특성, 활용 사례를 학습 순서에 따라 기술한다.
1. 정의
이산 확률 분포 p와 q 사이의 교차 엔트로피는 다음과 같이 정의된다.
H(p, q) = -\sum_{i} p_i \log q_i
다중 분류 과제에서 p는 라벨에 해당하는 원-핫 벡터 \mathbf{t} = (t_1, t_2, \dots, t_K)^\top이고, q는 신경망의 예측 확률 분포 \mathbf{p} = (p_1, p_2, \dots, p_K)^\top이다. 따라서 단일 표본의 교차 엔트로피 손실은 다음과 같이 표현된다.
\ell(\mathbf{p}, \mathbf{t}) = -\sum_{i=1}^{K} t_i \log p_i
라벨이 원-핫 벡터인 경우 t_c = 1이고 나머지 성분이 0이므로, 손실은 다음과 같이 단순화된다.
\ell(\mathbf{p}, c) = -\log p_c
12.11.2 정보 이론적 해석
교차 엔트로피는 정보 이론에서 두 분포 사이의 비대칭적 거리 척도로 해석된다. 분포 p를 부호화하는 데에 분포 q를 사용한다면, 평균 부호 길이는 H(p, q) 비트로 표현된다. 이는 분포 p의 엔트로피 H(p) = -\sum_i p_i \log p_i와 Kullback-Leibler 발산 D_{\text{KL}}(p \| q) = \sum_i p_i \log (p_i / q_i)의 합으로 표현된다.
H(p, q) = H(p) + D_{\text{KL}}(p \| q)
라벨이 원-핫 벡터인 경우 H(p) = 0이므로 교차 엔트로피와 KL 발산이 일치한다. 즉, 교차 엔트로피의 최소화는 KL 발산의 최소화와 동등하며, 이는 신경망의 예측 분포가 라벨 분포에 가까워지도록 학습하는 학술적 의미를 가진다.
2. 통계적 해석
교차 엔트로피 손실은 범주형 분포의 음의 로그 우도와 동등하다. 학습 데이터의 라벨이 신경망의 예측 분포에서 추출되었다고 가정하면, 음의 로그 우도는 다음과 같다.
-\sum_{k=1}^{N} \log p_\theta(y^{(k)} \mid \mathbf{x}^{(k)}) = \sum_{k=1}^{N} -\log p_{y^{(k)}}^{(k)}
이는 학습 데이터에 대한 교차 엔트로피 손실의 합과 동등하다. 따라서 교차 엔트로피의 최소화는 범주형 분포의 최대 우도 추정과 동등하다.
12.11.4 도함수
소프트맥스 출력층과 결합된 교차 엔트로피 손실의 입력 z_j에 대한 기울기는 다음과 같이 매우 단순한 형태로 표현된다.
\frac{\partial \ell}{\partial z_j} = p_j - t_j
이 결과는 학술적·계산적으로 매우 중요하다. 학습 신호가 예측 확률과 실제 라벨의 차이에 비례하므로, 분류 오류가 클수록 학습 신호가 강해진다. 또한 이 표현은 소프트맥스의 자코비안과 교차 엔트로피의 도함수가 결합된 결과로서, 수치적 안정성도 향상시킨다.
3. 학술적 특성
교차 엔트로피 손실의 주요 학술적 특성은 다음과 같다.
- 비음성: 항상 0 이상의 값을 가진다.
- 미분 가능성: 모든 점에서 미분 가능하다.
- 볼록성: 예측 확률 \mathbf{p}에 대하여 볼록 함수이다.
- 정보 이론적 해석: KL 발산과의 관계로 학술적 의미가 명확하다.
- 통계적 해석: 범주형 분포의 최대 우도 추정과 동등하다.
- 단순한 기울기: 소프트맥스와의 결합에서 매우 단순한 기울기 표현이 가능하다.
4. 수치 안정성
교차 엔트로피의 직접적 평가는 예측 확률 p_c가 0에 가까울 때 \log p_c가 음의 무한대로 발산하므로 수치적 불안정성이 발생할 수 있다. 학술적·실용적으로는 다음의 안정화 기법이 사용된다.
- 로그 소프트맥스의 직접 계산: 소프트맥스의 정의에서 로그 함수와의 결합을 직접 계산하여 수치적 안정성을 향상시킨다.
- 작은 양수의 추가: \log(p_c + \varepsilon)의 형태로 작은 양수 \varepsilon을 추가한다.
- 라벨 평활화(label smoothing): 라벨을 완전한 원-핫 벡터가 아닌 약간 평활화된 분포로 변환하여 과신(overconfidence)과 수치 불안정성을 완화한다.
5. 활용 사례
교차 엔트로피 손실은 다음의 학술적 활용 사례에서 사용된다.
- 다중 분류 과제: 영상 분류, 텍스트 분류, 음성 인식 등
- 시퀀스 모형의 토큰 예측: 언어 모형의 다음 토큰 예측에서 어휘 집합에 대한 교차 엔트로피 손실 사용
- 분할 과제: 의미 분할(semantic segmentation)에서 픽셀별 교차 엔트로피 손실
- 지식 증류: 교사 모형의 출력 분포와 학생 모형의 출력 분포 사이의 KL 발산 사용
6. 변형
교차 엔트로피의 학술적 변형으로는 다음이 알려져 있다.
- 라벨 평활화 교차 엔트로피: 라벨을 평활화하여 과신을 완화
- 가중치 교차 엔트로피: 클래스 불균형을 완화하기 위하여 클래스별 가중치를 부여
- Focal loss: 쉬운 표본의 기여를 감소시키고 어려운 표본의 기여를 강조
7. 출처 및 버전 정보
- Cover, T. M., Thomas, J. A., Elements of Information Theory, Wiley, 2006
- Bishop, C. M., Pattern Recognition and Machine Learning, Springer, 2006
- Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
- Murphy, K. P., Probabilistic Machine Learning: An Introduction, MIT Press, 2022
- Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., Wojna, Z., Rethinking the Inception Architecture for Computer Vision, IEEE Conference on Computer Vision and Pattern Recognition, 2016