11.8 범용 근사 정리(Universal Approximation Theorem)
범용 근사 정리(Universal Approximation Theorem)는 다층 신경망이 일정한 조건 하에서 임의의 연속 함수를 임의의 정밀도로 근사할 수 있다는 학술적 결과의 총칭이다. 이 정리는 인공 신경망이 표현력 측면에서 학습의 대상으로 적절함을 입증하는 핵심적 이론이며, 심층 학습의 학술적 정당화의 출발점으로 평가된다. 이 절에서는 정리의 원형, 그 일반화, 학술적 가정, 한계, 후속 결과를 학습 순서에 따라 기술한다.
1. 정리의 원형
Cybenko가 1989년에 Approximation by superpositions of a sigmoidal function에서 증명한 결과는 다음과 같이 요약된다. \sigma가 연속이고 단조 비감소이며 다음의 극한 조건을 만족하는 함수라고 하자.
\lim_{z \to -\infty} \sigma(z) = 0, \quad \lim_{z \to +\infty} \sigma(z) = 1
이러한 \sigma를 시그모이드 함수(sigmoidal function)라고 부른다. 임의의 연속 함수 f: [0, 1]^n \to \mathbb{R}과 임의의 \varepsilon > 0에 대하여, 적절한 정수 N, 실수 가중치 w_{ij}와 \alpha_i, 편향 b_i가 존재하여 다음이 성립한다.
\sup_{\mathbf{x} \in [0, 1]^n} \left| f(\mathbf{x}) - \sum_{i=1}^{N} \alpha_i \sigma\left(\sum_{j=1}^{n} w_{ij} x_j + b_i\right) \right| < \varepsilon
즉, 시그모이드 활성화를 가지는 단일 은닉층 신경망의 집합은 단위 입방체 위의 연속 함수의 공간에서 균등 노름에 대하여 조밀(dense)하다.
2. 정리의 일반화
Hornik은 1991년에 Approximation Capabilities of Multilayer Feedforward Networks에서 Cybenko의 결과를 일반화하였다. Hornik의 결과는 활성화 함수가 연속이고 다항식이 아니라는 조건 하에서 동일한 보편 근사 성질이 성립함을 보였다. 이 일반화는 시그모이드 함수 외에도 쌍곡 탄젠트, 정류 선형 단위(ReLU), 그리고 다양한 비다항식 활성화 함수에 보편성을 확장한다.
또한 Funahashi (1989)와 Leshno 외 (1993) 등의 학술적 결과도 동일 시기에 보편 근사 정리의 다양한 변형을 제시하였다. Leshno 외의 Multilayer feedforward networks with a nonpolynomial activation function can approximate any function (1993)은 활성화 함수가 비다항식이라는 조건이 보편성에 대한 필요 충분 조건임을 보였다.
3. 학술적 가정과 의미
범용 근사 정리는 다음의 가정을 전제로 한다.
- 함수의 정의역이 컴팩트(compact) 집합이다.
- 근사 대상 함수가 연속이다.
- 활성화 함수가 적절한 조건(연속, 비다항식, 유계 변동 등)을 만족한다.
- 은닉층의 단위 수가 충분히 크다.
이 가정 하에서 정리는 신경망의 함수 공간이 연속 함수 공간에서 조밀함을 보장한다. 그러나 정리는 다음과 같은 학술적 한계를 가진다.
- 효율성에 관한 보장이 없다: 임의의 정밀도에 도달하기 위하여 필요한 단위 수에 관한 명시적 상한을 제공하지 않는다.
- 학습 가능성에 관한 보장이 없다: 적절한 가중치의 존재만을 보장하며, 이러한 가중치를 경사 기반 학습으로 찾을 수 있는지에 관한 보장은 없다.
- 일반화에 관한 보장이 없다: 학습 데이터에 대한 손실의 최소화가 검증 데이터에 대한 손실의 최소화로 이어진다는 보장은 없다.
4. 깊이의 효율성
범용 근사 정리는 단일 은닉층의 표현력에 관한 결과이지만, 학술적 후속 연구는 깊이가 표현 효율을 학술적으로 향상시킨다는 결과를 제시하였다. Telgarsky의 Benefits of depth in neural networks (2016)는 일부 함수족에 대하여 깊은 신경망이 동일 정밀도를 달성하기 위하여 얕은 신경망보다 지수적으로 적은 단위를 필요로 한다는 점을 증명하였다.
이 결과는 범용 근사 정리가 단일 은닉층의 표현력을 보장함에도 불구하고, 실제 응용에서 깊은 신경망이 학술적으로 더 효과적인 이유를 부분적으로 설명한다.
5. 학술적 의의
범용 근사 정리는 다음의 학술적 의의를 가진다.
- 인공 신경망의 표현력에 관한 이론적 근거의 제공
- 심층 학습의 학술적 정당화의 출발점
- 학습 알고리즘의 설계와 평가의 기준
- 통계 학습 이론과의 연결: 모형의 표현력과 일반화 능력의 균형에 관한 연구
6. 출처 및 버전 정보
- Cybenko, G., Approximation by superpositions of a sigmoidal function, Mathematics of Control, Signals and Systems, 1989
- Funahashi, K., On the approximate realization of continuous mappings by neural networks, Neural Networks, 1989
- Hornik, K., Approximation Capabilities of Multilayer Feedforward Networks, Neural Networks, 1991
- Leshno, M., Lin, V. Y., Pinkus, A., Schocken, S., Multilayer feedforward networks with a nonpolynomial activation function can approximate any function, Neural Networks, 1993
- Telgarsky, M., Benefits of depth in neural networks, Conference on Learning Theory, 2016
- Pinkus, A., Approximation theory of the MLP model in neural networks, Acta Numerica, 1999
- Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016