12.6 GELU(Gaussian Error Linear Unit) 함수

가우시안 오차 선형 단위(Gaussian Error Linear Unit, GELU)는 입력에 표준 정규 분포의 누적 분포 함수를 곱한 형태로 정의되는 매끄러운 활성화 함수이다. GELU는 트랜스포머 기반의 대규모 모형에서 광범위하게 채택되어 왔으며, 학술적으로 기울기 소실 문제와 dying ReLU 문제를 동시에 완화하는 활성화로 알려져 있다. 이 절에서는 GELU의 정의, 도함수, 학술적 특성, 근사식, 활용 사례를 학습 순서에 따라 기술한다.

1. 정의

GELU는 Hendrycks와 Gimpel이 2016년에 *Gaussian Error Linear Units (GELUs)*에서 학술적으로 제안하였다. 정의는 다음과 같다.

$\text{GELU}(z) = z \cdot \Phi(z)$

여기서 $\Phi$ 는 표준 정규 분포의 누적 분포 함수이다.

$\Phi(z) = \frac{1}{2}\left(1 + \text{erf}\left(\frac{z}{\sqrt{2}}\right)\right)$

이 정의는 입력 $z$ 를 그 자체의 분위(quantile) 확률로 가중하는 형태로 해석된다. 입력이 0보다 매우 크면 $\Phi(z) \approx 1$ 이므로 GELU는 항등 함수에 가까워지고, 입력이 0보다 매우 작으면 $\Phi(z) \approx 0$ 이므로 GELU는 0에 가까워진다.

2. 학술적 동기

GELU의 학술적 동기는 입력의 통계적 특성에 따라 활성화의 정도를 확률적으로 결정하는 데에 있다. ReLU가 입력의 부호에 따라 결정론적으로 0 또는 입력 자체를 출력하는 반면, GELU는 입력이 표준 정규 분포의 어디에 위치하는지에 따라 매끄럽게 활성화의 정도를 결정한다. 이러한 매끄러움은 다음의 학술적 장점을 제공한다.

모든 점에서 미분 가능
dying ReLU 문제의 회피
입력이 매우 작은 영역에서도 0이 아닌 작은 기울기 유지
학습 신호의 매끄러운 전파

3. 도함수

GELU의 도함수는 다음과 같이 표현된다.

$\text{GELU}'(z) = \Phi(z) + z \cdot \phi(z)$

여기서 $\phi(z) = (1 / \sqrt{2\pi}) e^{-z^2 / 2}$ 는 표준 정규 분포의 확률 밀도 함수이다. 도함수는 모든 점에서 정의되며 매끄럽다.

12.6.4 근사식

표준 GELU의 정의는 오차 함수의 평가를 요구하므로 계산 비용이 크다. 이를 완화하기 위하여 학술적으로 다음의 근사식이 제안되어 왔다.

12.6.4.1 쌍곡 탄젠트 근사

$\text{GELU}(z) \approx 0.5 z \left(1 + \tanh\left[\sqrt{\frac{2}{\pi}}\left(z + 0.044715 z^{3}\right)\right]\right)$

이 근사식은 Hendrycks와 Gimpel의 원래 학술 논문에서 함께 제시되었으며, 표준 GELU와 거의 동등한 결과를 산출하면서 계산 비용이 더 작다.

3.1 시그모이드 근사

$\text{GELU}(z) \approx z \cdot \sigma(1.702 z)$

이 근사식은 단순하고 빠른 평가를 제공한다.

12.6.5 학술적 특성

GELU의 주요 학술적 특성은 다음과 같다.

비선형성: 표현력의 보장
매끄러움: 모든 점에서 무한히 미분 가능
비포화성: 입력이 큰 양의 영역에서는 항등 함수에 가까워져 기울기 소실이 회피된다.
음의 영역의 작은 기울기: dying ReLU 문제의 회피
0이 아닌 평균: 출력의 평균이 일반적으로 0과 다르지만, 그 정도는 ReLU에 비하여 작다.

12.6.6 활용 사례

GELU는 다음의 학술적 활용 사례에서 광범위하게 사용된다.

트랜스포머 기반의 자연 언어 처리 모형: BERT, GPT 시리즈, T5, RoBERTa 등 다수의 대규모 언어 모형의 피드 포워드 층에서 채택되었다.
트랜스포머 기반의 컴퓨터 비전 모형: Vision Transformer (ViT), Swin Transformer 등 다수의 비전 트랜스포머에서 채택되었다.
대규모 사전 학습 모형: 학습 안정성과 성능 향상에 기여

특히 Devlin 외의 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2019)은 GELU를 BERT의 활성화 함수로 채택하여 학술적으로 광범위하게 알려지게 되었다.

12.6.7 출처 및 버전 정보

Hendrycks, D., Gimpel, K., Gaussian Error Linear Units (GELUs), arXiv:1606.08415, 2016
Devlin, J., Chang, M.-W., Lee, K., Toutanova, K., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, NAACL-HLT, 2019
Radford, A., 외, Language Models are Unsupervised Multitask Learners, OpenAI Technical Report, 2019
Dosovitskiy, A., 외, An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, International Conference on Learning Representations, 2021
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016