12.1 활성화 함수의 정의와 역할

활성화 함수(activation function)는 인공 신경망의 단위 출력에 적용되는 비선형 함수이다. 활성화 함수는 신경망의 표현력을 결정하고, 학습 가능성에 영향을 미치며, 출력의 분포를 형성한다. 이 절에서는 활성화 함수의 학술적 정의, 비선형성의 필요성, 일반적 요건, 학술적 분류를 학습 순서에 따라 기술한다.

1. 학술적 정의

인공 뉴런의 출력은 입력의 가중 합 $z = \mathbf{w}^\top \mathbf{x} + b$ 를 활성화 함수 $\varphi$ 로 변환한 값이다.

$y = \varphi(z)$

활성화 함수는 일반적으로 실수 입력을 실수 출력으로 변환하는 함수 $\varphi: \mathbb{R} \to \mathbb{R}$ 이며, 출력층에서는 벡터 입력에 대한 함수(예: 소프트맥스)도 사용된다.

12.1.2 비선형성의 학술적 필요성

활성화 함수가 모두 선형이라면 다층 신경망의 합성은 단일 선형 변환과 등가이다. 즉, 임의의 $L$ 층 선형 신경망은 다음과 같이 정의되며,

$f(\mathbf{x}) = W^{(L)} W^{(L-1)} \cdots W^{(1)} \mathbf{x} + \mathbf{c}$

이는 단일 행렬 $W^{(L)} W^{(L-1)} \cdots W^{(1)}$ 과 단일 편향 $\mathbf{c}$ 로 표현되는 선형 변환과 동일하다. 따라서 다층 구조의 학술적 이점이 상실된다. 비선형 활성화 함수는 이러한 합성의 평탄화를 방지하고, 다층 구조의 표현력을 학술적으로 보장한다.

2. 활성화 함수의 일반적 요건

학술적으로 활성화 함수가 만족해야 하는 일반적 요건은 다음과 같다.

비선형성: 다층 구조의 표현력을 보장하기 위함
미분 가능성: 경사 기반 학습을 위하여 거의 모든 점에서 미분 가능해야 함
단조성 또는 거의 단조성: 학습의 안정성을 위함(단, 절대적 요건은 아님)
계산 효율성: 순전파와 역전파 모두에서 빠르게 계산 가능해야 함
적절한 출력 범위: 학습의 수치 안정성과 정규화에 적절한 범위
기울기 소실 회피: 학습 과정에서 기울기가 0에 가까워지는 영역이 과도하지 않아야 함

이러한 요건은 동시에 모두 만족하기 어려우므로, 학술적으로 다양한 활성화 함수가 제안되어 왔다.

3. 학술적 분류

활성화 함수는 다음과 같이 분류된다.

포화 활성화 함수: 시그모이드, 쌍곡 탄젠트와 같이 입력의 절대값이 클 때 출력이 일정한 값에 가까워지는 함수
비포화 활성화 함수: 정류 선형 단위(ReLU)와 같이 입력의 절대값이 클 때 출력이 무한히 증가하는 함수
매끄러운 활성화 함수: GELU, Swish와 같이 모든 점에서 미분 가능한 함수
조각별 선형 활성화 함수: ReLU, Leaky ReLU, PReLU와 같이 조각별로 선형인 함수
출력층 전용 활성화 함수: 소프트맥스와 같이 출력 분포의 모형화를 위하여 출력층에서만 사용되는 함수

4. 표현력에 대한 학술적 영향

활성화 함수의 선택은 신경망의 표현력에 직접적 영향을 미친다. Leshno 외의 Multilayer feedforward networks with a nonpolynomial activation function can approximate any function (1993)은 활성화 함수가 비다항식이면 단일 은닉층 신경망이 임의의 연속 함수를 임의의 정밀도로 근사할 수 있음을 보였다. 이 결과는 비다항식 활성화의 학술적 충분 조건을 제시한다.

또한 정류 선형 단위(ReLU)와 같은 조각별 선형 활성화 함수는 신경망이 표현하는 함수의 조각별 선형 영역의 수를 지수적으로 증가시킬 수 있음이 학술적으로 분석되어 왔다. Montufar 외의 On the Number of Linear Regions of Deep Neural Networks (2014)는 이러한 결과를 정량적으로 제시하였다.

5. 학습 가능성에 대한 학술적 영향

활성화 함수는 학습 가능성에도 영향을 미친다. 포화 활성화 함수는 입력의 절대값이 크면 기울기가 0에 가까워져 학습이 정체되는 기울기 소실 문제를 발생시킬 수 있다. 비포화 활성화 함수는 이 문제를 완화하지만, 일부 단위가 영구적으로 비활성화되는 dying ReLU 문제를 발생시킬 수 있다. 이러한 학술적 한계를 완화하기 위하여 Leaky ReLU, PReLU, ELU, GELU 등 다양한 변형이 제안되어 왔다.

6. 출력층의 활성화 함수

출력층의 활성화 함수는 학습의 손실 함수와 결합되어 정의된다.

과제	출력층 활성화	손실 함수
회귀	항등 함수	평균 제곱 오차
이진 분류	시그모이드	이진 교차 엔트로피
다중 분류	소프트맥스	교차 엔트로피
다중 라벨 분류	라벨별 시그모이드	라벨별 이진 교차 엔트로피

이러한 결합은 학술적으로 출력 분포의 최대 우도 추정(maximum likelihood estimation)과 정합되도록 설계되어 있다.

7. 출처 및 버전 정보

Cybenko, G., Approximation by superpositions of a sigmoidal function, Mathematics of Control, Signals and Systems, 1989
Hornik, K., Approximation Capabilities of Multilayer Feedforward Networks, Neural Networks, 1991
Leshno, M., Lin, V. Y., Pinkus, A., Schocken, S., Multilayer feedforward networks with a nonpolynomial activation function can approximate any function, Neural Networks, 1993
Glorot, X., Bordes, A., Bengio, Y., Deep Sparse Rectifier Neural Networks, International Conference on Artificial Intelligence and Statistics, 2011
Montufar, G., Pascanu, R., Cho, K., Bengio, Y., On the Number of Linear Regions of Deep Neural Networks, Advances in Neural Information Processing Systems, 2014
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016