11.10 신경망의 표현력과 용량

신경망의 표현력(expressive power)은 신경망의 가설 공간(hypothesis space)이 어떤 함수의 집합을 표현할 수 있는지에 관한 학술적 개념이다. 용량(capacity)은 가설 공간의 크기를 정량적으로 측정하는 학술적 개념이다. 표현력과 용량은 신경망의 학습 가능성, 일반화 능력, 그리고 학습 데이터의 요구량과 직접적으로 관련된다. 이 절에서는 두 개념의 학술적 정의, 측정 방법, 일반화와의 관계, 학술적 결과를 학습 순서에 따라 기술한다.

1. 표현력의 학술적 정의

신경망의 표현력은 가설 공간 $\mathcal{H}$ 가 표현할 수 있는 함수의 집합으로 정의된다. 다층 신경망의 가설 공간은 가중치와 편향의 모든 가능한 값에 대응하는 함수의 집합이다. 표현력의 학술적 분석은 다음의 질문을 다룬다.

어떤 함수가 가설 공간에 속하는가?
임의의 함수를 어느 정밀도로 근사할 수 있는가?
동일 정밀도를 달성하기 위하여 얼마나 많은 매개 변수가 요구되는가?

범용 근사 정리는 첫 번째 질문에 대한 답으로, 충분한 너비의 단일 은닉층 신경망이 임의의 연속 함수를 임의의 정밀도로 근사할 수 있음을 보장한다.

2. 용량의 학술적 정의

용량은 가설 공간의 복잡도를 정량적으로 측정하는 개념이다. 학술적으로 자주 사용되는 용량의 측정 방법은 다음과 같다.

VC 차원(Vapnik-Chervonenkis dimension): 가설 공간이 산산이 부수는(shatter) 점의 최대 수
Rademacher 복잡도(Rademacher complexity): 가설 공간이 무작위 라벨에 적합할 수 있는 정도
매개 변수 수: 단순하지만 표현력의 척도로서 한계가 있음
노름 기반 용량: 가중치 행렬의 노름에 기반한 측정

VC 차원은 Vapnik과 Chervonenkis가 1971년에 On the uniform convergence of relative frequencies of events to their probabilities에서 도입한 학술적 개념이다.

3. 신경망의 VC 차원

신경망의 VC 차원은 활성화 함수와 매개 변수 수에 따라 다르다. Bartlett 외의 Almost Linear VC Dimension Bounds for Piecewise Polynomial Networks (1998)와 Nearly-tight VC-dimension and Pseudodimension Bounds for Piecewise Linear Neural Networks (Bartlett, Harvey, Liaw, Mehrabian, 2019)는 정류 선형 단위(ReLU)를 가지는 신경망의 VC 차원에 대한 학술적 상한과 하한을 제시하였다. 이 결과에 따르면 ReLU 신경망의 VC 차원은 매개 변수 수, 층의 수, 단위 수에 따라 거의 선형 또는 약간 초선형으로 증가한다.

4. 일반화와의 관계

전통적 통계 학습 이론은 가설 공간의 용량이 클수록 학습 데이터에 대한 손실과 일반화 손실 사이의 차이(generalization gap)가 커진다고 예측한다. Vapnik의 The Nature of Statistical Learning Theory (1995)는 다음의 학술적 부등식을 제시한다.

$P\left( \sup_{h \in \mathcal{H}} |R(h) - \hat{R}(h)| > \varepsilon \right) \leq 4 \cdot \Phi(2N) \cdot e^{-\varepsilon^2 N / 8}$

여기서 $\Phi(N)$ 은 가설 공간의 성장 함수, $R(h)$ 는 일반화 손실, $\hat{R}(h)$ 는 학습 데이터에 대한 경험적 손실이다. 이 부등식은 충분한 학습 데이터가 있을 때 일반화 손실과 경험적 손실의 차이가 작아짐을 보장한다.

11.10.5 과매개화의 역설

전통적 통계 학습 이론은 가설 공간의 용량이 학습 데이터의 수보다 매우 큰 경우 일반화 손실이 증가한다고 예측한다. 그러나 심층 학습에서는 매개 변수 수가 학습 데이터의 수보다 매우 큰 과매개화(over-parameterization) 모형이 학습 데이터에 완벽히 적합하면서도 우수한 일반화 성능을 가지는 사례가 학술적으로 보고되어 왔다.

이러한 현상은 Belkin 외의 Reconciling modern machine learning practice and the bias–variance trade-off (2019)에서 이중 강하(double descent) 곡선으로 학술적으로 분석되었다. 이중 강하 현상에 따르면, 모형 용량이 학습 데이터의 수에 가까워질 때 일반화 손실이 일시적으로 증가한 후, 매우 큰 용량에서는 다시 감소한다. 이 학술적 결과는 전통적인 편향-분산 절충(bias-variance trade-off)의 단순한 형태가 심층 학습에 그대로 적용되지 않음을 시사한다.

11.10.6 암묵적 정칙화

과매개화된 신경망의 우수한 일반화 성능을 설명하기 위한 학술적 가설로 암묵적 정칙화(implicit regularization)가 제안되어 왔다. 이 가설에 따르면 경사 기반 학습 알고리즘은 가설 공간의 모든 해 중에서 학술적으로 단순한 해(예: 노름이 작은 해)를 선호하는 경향이 있다. Neyshabur 외의 In Search of the Real Inductive Bias: On the Role of Implicit Regularization in Deep Learning (2015)과 같은 연구는 이러한 가설을 학술적으로 분석하였다.

11.10.7 출처 및 버전 정보

Vapnik, V. N., Chervonenkis, A. Y., On the uniform convergence of relative frequencies of events to their probabilities, Theory of Probability and its Applications, 1971
Vapnik, V. N., The Nature of Statistical Learning Theory, Springer, 1995
Bartlett, P. L., Maiorov, V., Meir, R., Almost Linear VC Dimension Bounds for Piecewise Polynomial Networks, Neural Computation, 1998
Bartlett, P. L., Harvey, N., Liaw, C., Mehrabian, A., Nearly-tight VC-dimension and Pseudodimension Bounds for Piecewise Linear Neural Networks, Journal of Machine Learning Research, 2019
Belkin, M., Hsu, D., Ma, S., Mandal, S., Reconciling modern machine learning practice and the bias–variance trade-off, Proceedings of the National Academy of Sciences, 2019
Neyshabur, B., Tomioka, R., Srebro, N., In Search of the Real Inductive Bias: On the Role of Implicit Regularization in Deep Learning, International Conference on Learning Representations, 2015
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
Mohri, M., Rostamizadeh, A., Talwalkar, A., Foundations of Machine Learning, MIT Press, 2018