12.2 시그모이드(Sigmoid) 함수
시그모이드 함수(sigmoid function)는 인공 신경망의 초기에 가장 광범위하게 사용된 활성화 함수의 하나이다. 시그모이드 함수는 실수 입력을 0과 1 사이의 값으로 매끄럽게 변환하므로 확률적 해석이 가능하다는 학술적 장점을 가진다. 이 절에서는 시그모이드 함수의 정의, 도함수, 학술적 특성, 한계, 활용 사례를 학습 순서에 따라 기술한다.
1. 정의
표준적인 시그모이드 함수는 다음과 같이 정의된다.
\sigma(z) = \frac{1}{1 + e^{-z}}
이 함수는 로지스틱 함수(logistic function)로도 불리며, z \to -\infty일 때 0에 가까워지고 z \to +\infty일 때 1에 가까워진다. z = 0에서의 함수 값은 0.5이다.
12.2.2 학술적 특성
시그모이드 함수의 주요 학술적 특성은 다음과 같다.
- 단조 증가: 입력이 증가하면 출력도 증가한다.
- 매끄러움: 모든 점에서 무한히 미분 가능하다.
- 유계성: 출력이 항상 0과 1 사이에 위치한다.
- 대칭성: \sigma(-z) = 1 - \sigma(z)
- 확률적 해석: 출력이 0과 1 사이의 값이므로 확률로 해석 가능
- 비선형성: 다층 구조의 표현력을 보장하기에 충분한 비선형성
12.2.3 도함수
시그모이드 함수의 도함수는 다음과 같이 자기 자신의 함수 값으로 표현된다.
\sigma'(z) = \sigma(z) (1 - \sigma(z))
이 표현은 역전파의 계산에서 중간 결과를 재사용할 수 있다는 학술적·실용적 장점을 가진다. 도함수의 최대값은 z = 0에서 0.25이며, |z|가 증가할수록 0에 가까워진다.
2. 학습 가능성에서의 한계
시그모이드 함수는 다음의 학술적 한계를 가진다.
2.1 기울기 소실
|z|가 큰 영역에서 도함수의 값이 0에 가까워지므로, 깊은 신경망에서 역전파 시 기울기가 층을 따라 전파되면서 기하급수적으로 감소한다. 이 현상은 학술적으로 기울기 소실(vanishing gradient) 문제로 알려져 있으며, 깊은 신경망의 학습을 어렵게 한다.
2.2 0이 아닌 평균
시그모이드 함수의 출력은 항상 양수이므로, 다음 층의 입력의 평균이 0이 아니다. 이로 인하여 가중치의 경사가 일관된 부호를 가지는 경향이 발생하며, 학습의 수렴 속도가 느려질 수 있다. 이 학술적 한계는 LeCun 외의 Efficient BackProp (1998)에서 분석된 바 있다.
2.3 계산 비용
시그모이드 함수는 지수 함수의 평가를 요구하므로, 정류 선형 단위(ReLU)와 같은 조각별 선형 활성화 함수에 비하여 계산 비용이 크다.
3. 활용 사례
이러한 한계에도 불구하고 시그모이드 함수는 다음의 학술적 활용 사례에서 여전히 중요하다.
- 이진 분류의 출력층: 출력이 0과 1 사이의 값이므로 사건의 확률로 해석된다.
- 게이트 메커니즘: LSTM과 GRU의 입력 게이트, 망각 게이트, 출력 게이트는 시그모이드 함수를 사용하여 정보의 흐름을 0과 1 사이의 값으로 조절한다.
- 어텐션 가중치의 일부: 일부 어텐션 메커니즘은 시그모이드 함수를 사용하여 가중치를 산출한다.
- 다중 라벨 분류: 각 라벨에 대한 독립적 확률을 산출하기 위하여 라벨별로 시그모이드 함수를 적용한다.
4. 로지스틱 회귀와의 관계
시그모이드 함수는 로지스틱 회귀(logistic regression) 모형의 핵심 구성 요소이다. 로지스틱 회귀는 입력 \mathbf{x}와 가중치 \mathbf{w}의 가중 합을 시그모이드 함수에 입력하여 사건의 확률을 모형화한다.
P(y = 1 \mid \mathbf{x}) = \sigma(\mathbf{w}^\top \mathbf{x} + b)
이 관점에서 시그모이드 함수는 베르누이 분포의 자연 매개 변수(natural parameter)에 대한 평균 매개 변수의 변환으로 해석된다. 이러한 관점은 일반화 선형 모형(Generalized Linear Model, GLM)의 학술적 틀에서 정형화된다.
12.2.7 출처 및 버전 정보
- Rumelhart, D. E., Hinton, G. E., Williams, R. J., Learning representations by back-propagating errors, Nature, 1986
- LeCun, Y., Bottou, L., Orr, G. B., Müller, K.-R., Efficient BackProp, Neural Networks: Tricks of the Trade, Springer, 1998
- Bishop, C. M., Pattern Recognition and Machine Learning, Springer, 2006
- Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
- McCullagh, P., Nelder, J. A., Generalized Linear Models, Chapman and Hall, 1989