12.14 활성화 함수와 손실 함수의 조합 원칙

출력층의 활성화 함수와 손실 함수는 학습의 통계적 정합성과 수치적 안정성을 보장하기 위하여 결합되어 선택된다. 이 절에서는 활성화 함수와 손실 함수의 조합에 관한 학술적 원칙, 주요 조합, 그 통계적 해석, 학습 신호의 단순화, 그리고 결합의 수치적 구현을 학습 순서에 따라 기술한다.

1. 결합의 학술적 원칙

활성화 함수와 손실 함수의 조합은 다음의 학술적 원칙에 따라 결정된다.

통계적 정합성: 출력층의 활성화 함수가 표현하는 확률 분포의 매개 변수와 손실 함수가 정합되어야 한다.
학습 신호의 단순화: 결합의 결과로 도출되는 손실의 기울기가 단순한 형태로 표현되어 학습이 효율적이어야 한다.
수치적 안정성: 결합의 직접 평가가 오버플로우 또는 언더플로우를 발생시키지 않아야 한다.
볼록성의 보존: 가능한 경우 결합된 손실이 출력에 대하여 볼록성을 가져야 한다.

이러한 원칙은 학술적으로 일반화 선형 모형(Generalized Linear Model)의 정준적 연결 함수(canonical link function)와 동등한 결합으로 환원된다.

2. 주요 조합

가장 학술적으로 자주 사용되는 조합은 다음과 같다.

과제	출력층 활성화	손실 함수	통계적 모형
회귀 (스칼라/벡터)	항등 함수	평균 제곱 오차	가우시안 분포
이진 분류	시그모이드	이진 교차 엔트로피	베르누이 분포
다중 분류	소프트맥스	교차 엔트로피	범주형 분포
다중 라벨 분류	라벨별 시그모이드	라벨별 BCE	베르누이 분포의 집합
카운트 회귀	지수 함수	푸아송 음의 로그 우도	푸아송 분포
양수 회귀	소프트플러스	감마 음의 로그 우도	감마 분포

이러한 조합은 출력층이 표현하는 분포의 매개 변수와 손실 함수가 동일한 분포의 음의 로그 우도와 일치하도록 설계되어 있다.

3. 학습 신호의 단순화

위에서 제시된 조합에서는 손실 함수의 출력층 입력에 대한 기울기가 매우 단순한 형태로 표현된다. 이 단순화는 학술적으로 일반화 선형 모형의 정준적 연결의 결과이다.

3.1 회귀

항등 함수와 평균 제곱 오차의 결합에서 다음과 같은 기울기가 도출된다.

$\frac{\partial \ell}{\partial z} = z - y$

12.14.3.2 이진 분류

시그모이드와 이진 교차 엔트로피의 결합에서 다음과 같은 기울기가 도출된다.

$\frac{\partial \ell}{\partial z} = \sigma(z) - t$

3.2 다중 분류

소프트맥스와 교차 엔트로피의 결합에서 다음과 같은 기울기가 도출된다.

$\frac{\partial \ell}{\partial z_j} = p_j - t_j$

이러한 단순한 기울기는 학습 신호가 예측과 라벨의 차이에 비례하도록 하여 학습의 안정성과 효율성을 향상시킨다.

12.14.4 부적절한 조합의 학술적 결과

활성화 함수와 손실 함수의 조합이 통계적으로 정합되지 않으면 학습이 불안정하거나 수렴이 느려질 수 있다. 다음의 학술적 사례는 부적절한 조합의 결과를 보여준다.

시그모이드 출력층과 평균 제곱 오차의 결합: 이 조합은 베르누이 분포의 가우시안 가정을 강제하므로 통계적으로 부적절하며, 학습 신호의 기울기가 시그모이드의 도함수를 곱한 형태가 되어 기울기 소실이 강해진다.
항등 함수 출력층과 교차 엔트로피의 결합: 이 조합은 출력이 확률 분포의 형태를 가지지 않으므로 의미가 없다.
소프트맥스 출력층과 평균 제곱 오차의 결합: 통계적으로 부적절하며, 학습 신호의 단순화가 소실된다.

12.14.5 수치적 구현

결합된 손실 함수의 직접적 평가는 일부 경우 수치적 불안정성을 발생시킬 수 있다. 학술적·실용적으로는 결합을 명시적으로 분리하지 않고 단일 함수로 평가하는 방법이 권고된다.

Sigmoid + BCE: binary_cross_entropy_with_logits와 같은 단일 함수로 구현
Softmax + Cross-Entropy: cross_entropy_with_logits 또는 log_softmax + nll_loss의 결합으로 구현

이러한 단일 함수의 구현은 로그-합-지수(log-sum-exp) 안정화 기법을 활용하여 오버플로우와 언더플로우를 회피한다.

12.14.6 일반화 선형 모형과의 관계

위에서 설명한 조합은 학술적으로 일반화 선형 모형의 정준적 연결 함수와 동등하다. 일반화 선형 모형의 학술적 틀은 출력 분포의 매개 변수와 입력의 선형 함수 사이의 연결을 통하여 회귀와 분류를 통합적으로 다룬다. 신경망의 출력층은 이 틀의 비선형 일반화로 해석될 수 있다.

분포	정준적 연결 함수	출력층 활성화
가우시안	항등	항등 함수
베르누이	로짓	시그모이드
범주형	다항 로짓	소프트맥스
푸아송	로그	지수 함수
감마	역수	소프트플러스 등

이러한 학술적 통합은 신경망의 출력층 설계에 일관된 원리를 제공한다.

12.14.7 출처 및 버전 정보

McCullagh, P., Nelder, J. A., Generalized Linear Models, Chapman and Hall, 1989
Bishop, C. M., Pattern Recognition and Machine Learning, Springer, 2006
Hastie, T., Tibshirani, R., Friedman, J., The Elements of Statistical Learning, Springer, 2009
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
Murphy, K. P., Probabilistic Machine Learning: An Introduction, MIT Press, 2022
Bridle, J. S., Probabilistic Interpretation of Feedforward Classification Network Outputs, with Relationships to Statistical Pattern Recognition, Neurocomputing: Algorithms, Architectures and Applications, Springer, 1990