11.3 다층 퍼셉트론(Multi-Layer Perceptron)
다층 퍼셉트론(Multi-Layer Perceptron, MLP)은 입력층, 하나 이상의 은닉층, 출력층으로 구성된 순방향(feedforward) 인공 신경망이다. 다층 구조와 미분 가능한 활성화 함수의 결합을 통하여 단일 퍼셉트론의 표현력 한계를 극복하며, 학술적으로 심층 학습의 직접적 전신으로 평가된다. 이 절에서는 다층 퍼셉트론의 수학적 정의, 표현력, 학습 가능성, 학술적 의의를 학습 순서에 따라 기술한다.
1. 수학적 정의
다층 퍼셉트론은 L개의 층으로 구성된다. 입력층은 입력 벡터 \mathbf{x} \in \mathbb{R}^{d_0}을 받고, \ell번째 은닉층은 다음과 같이 정의된다.
\mathbf{z}^{(\ell)} = W^{(\ell)} \mathbf{a}^{(\ell - 1)} + \mathbf{b}^{(\ell)}
\mathbf{a}^{(\ell)} = \varphi^{(\ell)}(\mathbf{z}^{(\ell)})
여기서 W^{(\ell)} \in \mathbb{R}^{d_\ell \times d_{\ell - 1}}은 \ell번째 층의 가중치 행렬, \mathbf{b}^{(\ell)} \in \mathbb{R}^{d_\ell}은 편향 벡터, \varphi^{(\ell)}은 활성화 함수, \mathbf{a}^{(\ell)}은 \ell번째 층의 출력 벡터이다. \mathbf{a}^{(0)} = \mathbf{x}로 정의되며, 출력층의 출력 \mathbf{a}^{(L)}이 최종 출력이 된다.
2. 활성화 함수의 비선형성
다층 퍼셉트론의 표현력은 활성화 함수의 비선형성에 의존한다. 모든 활성화 함수가 선형이라면 여러 층의 결합은 단일 선형 변환과 등가이며, 다층 구조의 학술적 이점이 사라진다. 이러한 이유로 학술적으로 시그모이드, 쌍곡 탄젠트, 정류 선형 단위(Rectified Linear Unit, ReLU)와 같은 비선형 활성화 함수가 사용된다.
3. 표현력
다층 퍼셉트론의 표현력은 다음의 두 가지 학술적 결과로 요약된다.
- 단일 은닉층의 보편성: Cybenko (1989)와 Hornik (1991)은 시그모이드 또는 일반적인 비다항식 활성화 함수를 가진 단일 은닉층 신경망이 임의의 연속 함수를 임의의 정밀도로 근사할 수 있음을 증명하였다. 이는 범용 근사 정리(universal approximation theorem)로 알려져 있다.
- 깊이의 효율성: Telgarsky의 Benefits of depth in neural networks (2016)와 같은 학술 문헌은 일정한 함수족에 대하여 깊은 신경망이 동일 정밀도를 달성하기 위하여 얕은 신경망보다 지수적으로 적은 수의 단위를 필요로 한다는 점을 증명하였다.
이 두 결과는 단일 은닉층의 표현력이 이론적으로 충분하지만, 실제 학습과 일반화의 효율은 깊이가 큰 구조에서 더 우수할 수 있음을 시사한다.
4. 학습 가능성
다층 퍼셉트론은 미분 가능한 활성화 함수를 가지므로 경사 기반 학습 알고리즘이 적용 가능하다. 학습 알고리즘의 핵심은 역전파(backpropagation)로, Rumelhart, Hinton, Williams가 1986년에 Learning representations by back-propagating errors에서 학술적으로 정립하였다. 역전파는 손실 함수에 대한 가중치의 기울기를 연쇄 법칙(chain rule)에 의하여 효율적으로 계산하는 알고리즘이다.
5. XOR 문제의 해결
단일 퍼셉트론으로 표현할 수 없는 배타적 논리합(XOR) 함수는 두 개의 은닉 단위와 비선형 활성화 함수를 가진 다층 퍼셉트론으로 표현 가능하다. 이러한 표현 가능성은 다층 구조의 학술적 이점을 입증하는 대표적 사례로 자주 인용된다.
6. 학술적 의의
다층 퍼셉트론은 다음의 학술적 의의를 가진다.
- 단일 퍼셉트론의 표현력 한계의 극복
- 범용 근사 정리에 의한 표현력의 이론적 보장
- 역전파 알고리즘에 의한 효율적 학습 가능성
- 심층 학습의 직접적 전신으로서의 학술적 위치
다만 다층 퍼셉트론은 입력의 공간적 또는 시간적 구조를 명시적으로 활용하지 않으므로, 영상이나 시계열 데이터에 대하여는 합성곱 신경망이나 순환 신경망과 같은 특수화된 구조가 학술적으로 더 효과적인 것으로 알려져 있다.
7. 출처 및 버전 정보
- Rosenblatt, F., The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain, Psychological Review, 1958
- Minsky, M., Papert, S., Perceptrons: An Introduction to Computational Geometry, MIT Press, 1969
- Rumelhart, D. E., Hinton, G. E., Williams, R. J., Learning representations by back-propagating errors, Nature, 1986
- Cybenko, G., Approximation by superpositions of a sigmoidal function, Mathematics of Control, Signals and Systems, 1989
- Hornik, K., Approximation Capabilities of Multilayer Feedforward Networks, Neural Networks, 1991
- Telgarsky, M., Benefits of depth in neural networks, Conference on Learning Theory, 2016
- Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016