12.5 Leaky ReLU와 PReLU

Leaky ReLU와 Parametric ReLU (PReLU)는 정류 선형 단위(ReLU)의 dying ReLU 문제를 완화하기 위하여 학술적으로 제안된 변형이다. 두 함수는 ReLU의 단순성을 유지하면서 음의 영역에서 0이 아닌 작은 기울기를 부여함으로써, 음의 입력에 대하여도 학습 신호가 전파되도록 한다. 이 절에서는 두 함수의 정의, 도함수, 학술적 특성, 비교, 활용 사례를 학습 순서에 따라 기술한다.

1. Leaky ReLU의 정의

Leaky ReLU는 음의 영역에서 작은 양의 기울기 \alpha > 0을 부여하는 활성화 함수로 다음과 같이 정의된다.

\text{Leaky ReLU}(z) = \begin{cases} z, & z \geq 0 \\ \alpha z, & z < 0 \end{cases}

기울기 \alpha는 일반적으로 0.01과 같은 작은 양의 상수로 고정된다. Maas, Hannun, Ng가 2013년에 Rectifier Nonlinearities Improve Neural Network Acoustic Models에서 음향 모형에 도입하여 학술적으로 제안하였다.

12.5.2 Leaky ReLU의 도함수

Leaky ReLU의 도함수는 다음과 같다.

\text{Leaky ReLU}'(z) = \begin{cases} 1, & z > 0 \\ \alpha, & z < 0 \end{cases}

음의 영역에서 도함수가 0이 아니므로, ReLU에서 발생하는 dying ReLU 문제가 학술적으로 완화된다.

2. PReLU의 정의

Parametric ReLU (PReLU)는 음의 영역의 기울기를 학습 가능 매개 변수로 정의한 활성화 함수이다. He, Zhang, Ren, Sun이 2015년에 Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification에서 학술적으로 제안하였다. 정의는 다음과 같다.

\text{PReLU}(z) = \begin{cases} z, & z \geq 0 \\ a z, & z < 0 \end{cases}

여기서 a는 학습 가능 매개 변수이며, 단위마다 또는 채널마다 별도로 정의될 수 있다. PReLU는 Leaky ReLU의 일반화로서, 음의 영역의 기울기를 사전에 고정하지 않고 학습 데이터로부터 학습한다.

12.5.4 학술적 특성

Leaky ReLU와 PReLU의 주요 학술적 특성은 다음과 같다.

  • 비포화성: 음의 영역에서도 0이 아닌 기울기를 가지므로 기울기 소실 문제가 완화된다.
  • 단조 증가: 입력이 증가하면 출력도 증가한다.
  • 계산 효율성: ReLU와 동일한 수준의 계산 효율을 가진다.
  • 학습 가능성의 향상: dying ReLU 문제의 완화로 학습 가능성이 향상된다.
  • 표현력의 확장: PReLU는 음의 영역의 기울기를 학습하므로 표현력이 추가로 확장된다.

12.5.5 비교

Leaky ReLU와 PReLU의 비교는 다음과 같이 요약된다.

항목Leaky ReLUPReLU
음의 기울기사전 고정된 상수학습 가능 매개 변수
추가 매개 변수없음단위 또는 채널마다 1개
학습 가능성ReLU보다 향상Leaky ReLU와 유사하거나 향상
학습 데이터 의존성없음있음
과적합 위험낮음추가 매개 변수에 의한 약간의 증가

PReLU는 음의 영역의 기울기를 학습 데이터로부터 학습하므로 표현력이 더 크지만, 학습 데이터에 의존하므로 학습 데이터가 부족한 경우 과적합의 위험이 약간 증가한다. He 외의 연구는 PReLU가 ImageNet 분류 과제에서 학술적으로 우수한 결과를 산출함을 보고하였다.

12.5.6 활용 사례

Leaky ReLU와 PReLU는 다음의 학술적 활용 사례에서 사용된다.

  • 깊은 합성곱 신경망: 영상 분류, 객체 검출, 의미 분할 등의 과제에서 ReLU를 대체하는 활성화로 사용된다.
  • 생성적 적대 신경망(GAN): 생성기와 판별기에서 학습 안정성을 향상시키기 위하여 자주 사용된다.
  • 음향 모형: Maas 외의 원래 학술 문헌이 음향 모형에서의 효과를 보고한 바와 같이 음성 인식 과제에 활용된다.

12.5.7 출처 및 버전 정보

  • Maas, A. L., Hannun, A. Y., Ng, A. Y., Rectifier Nonlinearities Improve Neural Network Acoustic Models, ICML Workshop on Deep Learning for Audio, Speech, and Language Processing, 2013
  • He, K., Zhang, X., Ren, S., Sun, J., Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification, IEEE International Conference on Computer Vision, 2015
  • Xu, B., Wang, N., Chen, T., Li, M., Empirical Evaluation of Rectified Activations in Convolutional Network, ICML Deep Learning Workshop, 2015
  • Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
  • Radford, A., Metz, L., Chintala, S., Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, International Conference on Learning Representations, 2016