12.9 손실 함수의 정의와 역할

손실 함수(loss function)는 신경망의 예측과 목표 값 사이의 불일치를 정량적으로 측정하는 함수이다. 손실 함수는 학습의 목적과 최적화의 대상으로 정의되며, 그 선택은 학습의 결과와 모형의 통계적 해석에 직접적 영향을 미친다. 이 절에서는 손실 함수의 학술적 정의, 역할, 통계적 해석, 분류, 일반적 요건을 학습 순서에 따라 기술한다.

1. 학술적 정의

손실 함수는 신경망의 예측 $\hat{\mathbf{y}}$ 와 목표 값 $\mathbf{y}$ 를 입력으로 받아 비음수 실수를 출력하는 함수이다.

$\ell: \mathcal{Y} \times \mathcal{Y} \to \mathbb{R}_{\geq 0}$

학습 데이터 $\{(\mathbf{x}^{(k)}, \mathbf{y}^{(k)})\}_{k=1}^{N}$ 에 대한 경험적 손실(empirical loss)은 다음과 같이 정의된다.

$\mathcal{L}(\theta) = \frac{1}{N} \sum_{k=1}^{N} \ell\left(f_\theta(\mathbf{x}^{(k)}), \mathbf{y}^{(k)}\right)$

여기서 $f_\theta$ 는 매개 변수 $\theta$ 를 가진 신경망이다. 학습은 경험적 손실 $\mathcal{L}(\theta)$ 를 최소화하는 매개 변수 $\theta^*$ 를 찾는 절차이다.

2. 학습에서의 역할

손실 함수는 학습에서 다음의 학술적 역할을 수행한다.

학습의 목적 정의: 손실 함수의 최소화가 학습의 목적이다.
학습 신호의 제공: 손실 함수의 매개 변수에 대한 기울기는 매개 변수 갱신의 방향과 크기를 결정한다.
모형 선택의 기준: 검증 데이터에 대한 손실은 모형 선택과 하이퍼파라미터 조정의 기준이다.
통계적 해석의 제공: 손실 함수는 일반적으로 특정 확률 모형의 음의 로그 우도(negative log-likelihood)에 대응한다.

3. 통계적 해석

대부분의 손실 함수는 학술적으로 특정 확률 모형의 최대 우도 추정(Maximum Likelihood Estimation, MLE)으로 해석될 수 있다. 학습 데이터가 분포 $p(\mathbf{x}, \mathbf{y})$ 에서 독립 동일 분포(i.i.d.)로 추출되었다고 가정하면, 최대 우도 추정은 다음의 우도를 최대화하는 매개 변수를 찾는 절차이다.

$\theta^* = \arg\max_{\theta} \prod_{k=1}^{N} p_\theta(\mathbf{y}^{(k)} \mid \mathbf{x}^{(k)})$

이는 음의 로그 우도의 최소화와 동등하다.

$\theta^* = \arg\min_{\theta} -\sum_{k=1}^{N} \log p_\theta(\mathbf{y}^{(k)} \mid \mathbf{x}^{(k)})$

특정 확률 모형에 대하여 음의 로그 우도가 다음과 같이 손실 함수의 형태로 환원된다.

확률 모형	손실 함수
가우시안 분포	평균 제곱 오차
베르누이 분포	이진 교차 엔트로피
범주형 분포	교차 엔트로피
라플라스 분포	평균 절대 오차
푸아송 분포	푸아송 음의 로그 우도

이러한 대응 관계는 손실 함수의 학술적 정당화와 함께 출력층의 활성화 함수 선택의 학술적 근거를 제공한다.

4. 손실 함수의 분류

손실 함수는 과제의 종류에 따라 다음과 같이 분류된다.

회귀 손실: 평균 제곱 오차, 평균 절대 오차, Huber 손실 등
분류 손실: 교차 엔트로피, 이진 교차 엔트로피, 힌지 손실(hinge loss), Focal loss 등
순위 손실: 페어 와이즈 손실(pairwise loss), 리스트 와이즈 손실(listwise loss) 등
거리 손실: 대조 손실(contrastive loss), 트리플렛 손실(triplet loss) 등
분포 거리 손실: KL 발산, Jensen-Shannon 발산, Wasserstein 거리 등
구조화 손실: 시퀀스 손실(예: CTC), 분할 손실(예: Dice loss) 등

5. 일반적 요건

학술적으로 손실 함수가 만족해야 하는 일반적 요건은 다음과 같다.

비음성: 모든 입력에 대하여 0 이상의 값을 가진다.
미분 가능성: 경사 기반 학습을 위하여 거의 모든 점에서 미분 가능해야 한다.
일관성(consistency): 손실의 최소화가 통계적으로 일관된 추정으로 이어져야 한다.
강건성(robustness): 외부 잡음과 이상치에 대한 강건성
계산 효율성: 학습 단계에서 빠르게 평가 가능해야 한다.

이러한 요건은 동시에 모두 만족하기 어려우므로, 학술적으로 다양한 손실 함수가 과제의 특성에 따라 선택된다.

6. 정칙화 항의 결합

손실 함수는 일반적으로 정칙화 항(regularisation term)과 결합되어 사용된다. 정칙화는 매개 변수의 노름, 활성화의 희소성, 모형의 출력 분포 등에 페널티를 부여하여 일반화 성능을 향상시키는 학술적 기법이다. 정칙화된 손실 함수는 다음과 같이 표현된다.

$\mathcal{L}_{\text{total}}(\theta) = \mathcal{L}(\theta) + \lambda \cdot R(\theta)$

여기서 $R(\theta)$ 는 정칙화 항, $\lambda$ 는 정칙화 강도이다.

12.9.7 출처 및 버전 정보

Bishop, C. M., Pattern Recognition and Machine Learning, Springer, 2006
Hastie, T., Tibshirani, R., Friedman, J., The Elements of Statistical Learning, Springer, 2009
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
Murphy, K. P., Probabilistic Machine Learning: An Introduction, MIT Press, 2022
Vapnik, V. N., The Nature of Statistical Learning Theory, Springer, 1995