11.7 네트워크 깊이(Depth)와 너비(Width)

신경망의 깊이(depth)는 입력층에서 출력층까지의 층의 수를 의미하며, 너비(width)는 각 층의 단위 수를 의미한다. 깊이와 너비는 신경망의 표현력, 학습 가능성, 일반화 능력에 직접적 영향을 미치는 학술적 매개 변수이다. 이 절에서는 깊이와 너비의 학술적 정의, 그 효과에 관한 학술 결과, 깊이와 너비의 균형에 관한 분석을 학습 순서에 따라 기술한다.

1. 학술적 정의

깊이는 일반적으로 학습 가능한 매개 변수를 가지는 층의 수로 정의된다. 입력층은 매개 변수를 가지지 않으므로 깊이의 계산에서는 제외되는 경우가 많다. 너비는 각 층의 출력 차원으로 정의되며, 층마다 다를 수 있다.

신경망의 매개 변수 수는 깊이와 너비의 곱에 비례하며, 학습 데이터의 양과의 균형이 학술적으로 중요하다.

2. 깊이의 학술적 효과

깊이의 학술적 효과에 관한 주요 결과는 다음과 같다.

표현력의 효율성: Telgarsky의 Benefits of depth in neural networks (2016)는 일정한 함수족에 대하여 깊은 신경망이 동일 정밀도를 달성하기 위하여 얕은 신경망보다 지수적으로 적은 단위를 필요로 한다는 점을 증명하였다.
계층적 표현: 깊은 신경망은 입력의 표현을 층별로 점진적으로 변환하여, 낮은 층은 단순한 특징을, 높은 층은 추상적이고 과제 특화된 특징을 학습하는 경향이 있다. 이러한 학습은 학술적으로 표현 학습(representation learning)의 일종으로 다루어진다.
학습의 어려움: 깊이가 커질수록 기울기 소실, 기울기 폭발, 최적화의 비볼록성 등의 학습 가능성 문제가 발생할 수 있다. 이러한 문제를 완화하기 위하여 잔차 연결, 정규화, 적절한 초기화가 사용된다.

3. 너비의 학술적 효과

너비의 학술적 효과는 다음과 같다.

보편 근사: Cybenko (1989)와 Hornik (1991)의 범용 근사 정리에 따르면, 충분한 너비를 가진 단일 은닉층 신경망은 임의의 연속 함수를 임의의 정밀도로 근사할 수 있다. 이는 너비의 표현력에 관한 학술적 결과이다.
최적화의 단순화: Du 외의 Gradient Descent Provably Optimizes Over-parameterized Neural Networks (2019)와 같은 연구는 매우 큰 너비를 가진 신경망에서 경사 하강법이 학습 데이터에 대한 손실을 0에 가깝게 감소시킬 수 있음을 학술적으로 분석하였다.
신경 접선 커널(Neural Tangent Kernel): Jacot 외의 Neural Tangent Kernel: Convergence and Generalization in Neural Networks (2018)는 무한 너비 극한에서의 신경망의 학습 동역학이 결정론적 커널 회귀로 환원됨을 보였다.

4. 깊이와 너비의 균형

깊이와 너비는 학술적으로 상호 보완적이다. 깊은 신경망은 계층적 추상화를 가능하게 하지만 학습이 어렵고, 넓은 신경망은 학습이 단순화되지만 매개 변수 효율이 낮을 수 있다. 두 매개 변수의 균형은 일반적으로 다음의 학술적·실용적 원칙에 따라 결정된다.

입력 데이터의 구조: 입력의 계층적 구조가 강한 경우 깊은 신경망이 효과적이다.
학습 데이터의 양: 학습 데이터가 부족한 경우 매개 변수 수의 과다는 과적합을 일으킨다.
계산 자원: 깊이와 너비는 학습과 추론의 계산 비용과 메모리 사용량에 직접적 영향을 미친다.
학습 가능성의 확보: 매우 깊은 신경망의 학습은 잔차 연결, 정규화, 적절한 초기화 등의 보조 기법을 요구한다.

5. 모형 규모 법칙

대규모 신경망의 학술적 분석에서는 모형 규모 법칙(scaling law)이 학술적으로 보고되어 있다. Kaplan 외의 Scaling Laws for Neural Language Models (2020)는 언어 모형의 매개 변수 수, 데이터 크기, 계산량과 손실 사이의 거듭제곱 관계를 실험적으로 분석하였다. 이 결과는 모형의 깊이와 너비를 데이터 크기와 계산 자원과 균형 있게 증가시키는 것이 학술적으로 효과적임을 시사한다.

6. 출처 및 버전 정보

Cybenko, G., Approximation by superpositions of a sigmoidal function, Mathematics of Control, Signals and Systems, 1989
Hornik, K., Approximation Capabilities of Multilayer Feedforward Networks, Neural Networks, 1991
Telgarsky, M., Benefits of depth in neural networks, Conference on Learning Theory, 2016
He, K., Zhang, X., Ren, S., Sun, J., Deep Residual Learning for Image Recognition, IEEE Conference on Computer Vision and Pattern Recognition, 2016
Jacot, A., Gabriel, F., Hongler, C., Neural Tangent Kernel: Convergence and Generalization in Neural Networks, Advances in Neural Information Processing Systems, 2018
Du, S., Lee, J., Li, H., Wang, L., Zhai, X., Gradient Descent Finds Global Minima of Deep Neural Networks, International Conference on Machine Learning, 2019
Kaplan, J., 외, Scaling Laws for Neural Language Models, arXiv:2001.08361, 2020
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016