12.4 ReLU(Rectified Linear Unit) 함수
정류 선형 단위(Rectified Linear Unit, ReLU) 함수는 심층 학습에서 가장 광범위하게 채택된 활성화 함수 중 하나이다. ReLU는 단순한 정의에도 불구하고 깊은 신경망의 학습 가능성과 표현력에 학술적으로 큰 영향을 미쳤다. 이 절에서는 ReLU의 정의, 도함수, 학술적 특성, 한계, 학술적 영향을 학습 순서에 따라 기술한다.
1. 정의
ReLU 함수는 다음과 같이 정의된다.
\text{ReLU}(z) = \max(0, z)
이 함수는 입력이 0 이상이면 입력을 그대로 출력하고, 입력이 0 미만이면 0을 출력한다. 함수의 그래프는 원점에서 꺾이는 조각별 선형 형태를 가진다.
12.4.2 도함수
ReLU 함수의 도함수는 다음과 같이 정의된다.
\text{ReLU}'(z) = \begin{cases} 1, & z > 0 \\ 0, & z < 0 \end{cases}
z = 0에서 함수는 미분 불가능하지만, 학술적·실용적 관행에 따라 0 또는 1과 같은 임의의 값을 부여하여 처리한다. 이러한 처리는 거의 모든 입력에서 학습이 정상적으로 수행됨을 보장한다.
2. 학술적 특성
ReLU 함수의 주요 학술적 특성은 다음과 같다.
- 비선형성: 다층 구조의 표현력을 보장하기에 충분한 비선형성을 가진다.
- 비포화성: z > 0인 영역에서 도함수가 1이므로 기울기 소실 문제가 완화된다.
- 계산 효율성: 단순한 비교와 선택 연산만으로 평가되므로 시그모이드와 쌍곡 탄젠트에 비하여 매우 빠르다.
- 희소성(sparsity): 입력이 0 미만인 단위는 출력이 0이 되므로, 신경망의 활성화가 자연스럽게 희소해진다.
- 조각별 선형성: 신경망 전체가 입력 공간을 다수의 영역으로 분할하는 조각별 선형 함수가 된다.
3. 학술적 등장과 영향
ReLU는 Glorot, Bordes, Bengio가 2011년에 Deep Sparse Rectifier Neural Networks에서 깊은 신경망의 활성화 함수로 학술적으로 도입하였다. Krizhevsky, Sutskever, Hinton의 ImageNet Classification with Deep Convolutional Neural Networks (2012)는 AlexNet에서 ReLU를 사용하여 ILSVRC 2012의 영상 분류 과제에서 학술적으로 큰 성능 향상을 보고하였다. 이 결과는 ReLU의 학술적·실용적 가치를 입증하였으며, 이후 깊은 신경망의 표준적 활성화 함수로 채택되었다.
4. 한계
ReLU는 다음의 학술적 한계를 가진다.
4.1 Dying ReLU 문제
학습 과정에서 일부 단위의 가중치가 음의 영역으로 이동하면 해당 단위의 입력이 항상 0 미만이 되어 출력이 항상 0이 된다. 이 단위는 기울기가 0이므로 더 이상 학습되지 않으며, 학술적으로 dying ReLU 문제로 알려져 있다. 이 문제는 학습률이 너무 크거나 초기화가 부적절할 때 발생할 가능성이 높다.
4.2 0이 아닌 평균
ReLU의 출력은 항상 0 이상이므로, 다음 층의 입력의 평균이 0이 아니다. 이 학술적 한계는 시그모이드와 마찬가지로 학습의 수렴 속도에 부정적 영향을 미칠 수 있다.
4.3 미분 불가능성
ReLU는 z = 0에서 미분 불가능하다. 학술적으로 이 점은 거의 모든 입력에서 학습에 영향을 미치지 않으나, 이론적 분석에서는 부분 미분(subgradient)을 사용하여 처리된다.
5. 학술적 변형
ReLU의 한계를 완화하기 위하여 다양한 변형이 학술적으로 제안되어 왔다. 대표적 변형은 다음과 같다.
- Leaky ReLU: 음의 영역에서 작은 기울기를 부여
- Parametric ReLU (PReLU): 음의 영역의 기울기를 학습 가능 매개 변수로 정의
- Exponential Linear Unit (ELU): 음의 영역에서 매끄럽게 감소하여 출력 평균을 0에 가깝게 유지
- Scaled Exponential Linear Unit (SELU): 자기 정규화(self-normalisation) 성질을 가짐
이러한 변형은 ReLU의 단순성을 유지하면서 일부 한계를 학술적으로 완화한다.
6. 출처 및 버전 정보
- Nair, V., Hinton, G. E., Rectified Linear Units Improve Restricted Boltzmann Machines, International Conference on Machine Learning, 2010
- Glorot, X., Bordes, A., Bengio, Y., Deep Sparse Rectifier Neural Networks, International Conference on Artificial Intelligence and Statistics, 2011
- Krizhevsky, A., Sutskever, I., Hinton, G. E., ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems, 2012
- He, K., Zhang, X., Ren, S., Sun, J., Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification, IEEE International Conference on Computer Vision, 2015
- Clevert, D.-A., Unterthiner, T., Hochreiter, S., Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs), International Conference on Learning Representations, 2016
- Klambauer, G., Unterthiner, T., Mayr, A., Hochreiter, S., Self-Normalizing Neural Networks, Advances in Neural Information Processing Systems, 2017
- Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016