12.3 하이퍼볼릭 탄젠트(Tanh) 함수

하이퍼볼릭 탄젠트(hyperbolic tangent) 함수는 시그모이드 함수와 유사한 S자 형태를 가지면서도 출력이 0을 중심으로 대칭적으로 분포하는 활성화 함수이다. 이 절에서는 하이퍼볼릭 탄젠트 함수의 정의, 도함수, 시그모이드와의 관계, 학술적 특성, 한계, 활용 사례를 학습 순서에 따라 기술한다.

1. 정의

하이퍼볼릭 탄젠트 함수는 다음과 같이 정의된다.

$\tanh(z) = \frac{e^{z} - e^{-z}}{e^{z} + e^{-z}}$

또는 동등하게 다음과 같이 표현된다.

$\tanh(z) = \frac{1 - e^{-2z}}{1 + e^{-2z}}$

이 함수는 $z \to -\infty$ 일 때 -1에 가까워지고, $z \to +\infty$ 일 때 +1에 가까워진다. $z = 0$ 에서 함수 값은 0이다.

2. 시그모이드와의 관계

하이퍼볼릭 탄젠트 함수는 시그모이드 함수의 선형 변환으로 표현될 수 있다.

$\tanh(z) = 2 \sigma(2z) - 1$

이 관계는 두 함수가 학술적으로 동일한 비선형 변환의 형태를 가짐을 의미한다.

12.3.3 도함수

하이퍼볼릭 탄젠트 함수의 도함수는 다음과 같이 자기 자신의 함수 값으로 표현된다.

$\tanh'(z) = 1 - \tanh^{2}(z)$

도함수의 최대값은 $z = 0$ 에서 1이며, $|z|$ 가 증가할수록 0에 가까워진다. 시그모이드 함수에 비하여 도함수의 최대값이 4배 크므로, 동일 입력에 대한 학습 신호의 크기가 더 크다.

3. 학술적 특성

하이퍼볼릭 탄젠트 함수의 주요 학술적 특성은 다음과 같다.

단조 증가: 입력이 증가하면 출력도 증가한다.
매끄러움: 모든 점에서 무한히 미분 가능하다.
유계성: 출력이 항상 -1과 1 사이에 위치한다.
0에 대한 대칭성: $\tanh(-z) = -\tanh(z)$
0이 평균인 출력: 입력이 평균적으로 0에 가까우면 출력의 평균도 0에 가깝다.

마지막 특성은 시그모이드 함수와 비교한 학술적 장점이며, 다음 층의 입력이 0을 중심으로 분포하도록 도와 학습의 수렴 속도를 향상시킨다. LeCun 외의 Efficient BackProp (1998)은 이러한 학술적 장점을 분석한 바 있다.

4. 학습 가능성에서의 한계

하이퍼볼릭 탄젠트 함수는 시그모이드 함수와 마찬가지로 포화 활성화 함수이므로, $|z|$ 가 큰 영역에서 도함수의 값이 0에 가까워져 기울기 소실 문제를 발생시킬 수 있다. 또한 지수 함수의 평가를 요구하므로 정류 선형 단위(ReLU)에 비하여 계산 비용이 크다.

5. 활용 사례

하이퍼볼릭 탄젠트 함수는 다음의 학술적 활용 사례에서 사용된다.

순환 신경망: LSTM과 GRU의 셀 상태 갱신과 후보 출력의 계산에서 하이퍼볼릭 탄젠트 함수가 광범위하게 사용된다.
게이트 메커니즘의 변환: 게이트의 출력을 -1과 1 사이의 값으로 변환할 때 사용된다.
출력 범위가 -1과 1로 제한되는 회귀 과제: 정규화된 출력 신호의 모형화에 활용된다.
일부 깊은 신경망의 은닉층: 학술적·역사적 이유로 일부 모형에서 사용된다.

6. 출처 및 버전 정보

LeCun, Y., Bottou, L., Orr, G. B., Müller, K.-R., Efficient BackProp, Neural Networks: Tricks of the Trade, Springer, 1998
Hochreiter, S., Schmidhuber, J., Long Short-Term Memory, Neural Computation, 1997
Cho, K., 외, Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation, Conference on Empirical Methods in Natural Language Processing, 2014
Bishop, C. M., Pattern Recognition and Machine Learning, Springer, 2006
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016