11.2 퍼셉트론(Perceptron)의 구조와 동작
퍼셉트론(Perceptron)은 Frank Rosenblatt가 1958년에 The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain에서 제안한 학습 가능한 이진 분류기이다. 퍼셉트론은 인공 신경망의 학술적 기원으로 평가되며, 이후의 다층 구조와 학습 알고리즘의 출발점이 되었다. 이 절에서는 퍼셉트론의 수학적 구조, 학습 규칙, 표현력의 한계, 학술적 의의를 학습 순서에 따라 기술한다.
1. 퍼셉트론의 수학적 구조
퍼셉트론은 입력 벡터 \mathbf{x} = (x_1, x_2, \dots, x_n)^\top에 대하여 가중치 벡터 \mathbf{w} = (w_1, w_2, \dots, w_n)^\top와 편향 b를 적용하고, 그 결과의 부호에 따라 이진 출력 y \in \{0, 1\} 또는 \{-1, +1\}을 산출한다. 일반적인 정의는 다음과 같다.
z = \mathbf{w}^\top \mathbf{x} + b
y = \begin{cases} 1, & z \geq 0 \\ 0, & z < 0 \end{cases}
이 정의에서 활성화 함수는 임계값 함수(step function)이다. 임계값 함수는 미분이 불가능하므로 경사 기반 학습이 직접적으로 적용되지 않는다.
2. 퍼셉트론 학습 규칙
Rosenblatt는 퍼셉트론의 학습 규칙으로 다음과 같은 절차를 제안하였다. 학습 데이터 (\mathbf{x}^{(k)}, t^{(k)})가 주어졌을 때, t^{(k)}는 목표 출력이고 y^{(k)}는 현재 퍼셉트론의 출력이다. 학습률(learning rate) \eta > 0에 대하여 가중치는 다음의 규칙으로 갱신된다.
\mathbf{w} \leftarrow \mathbf{w} + \eta (t^{(k)} - y^{(k)}) \mathbf{x}^{(k)}
b \leftarrow b + \eta (t^{(k)} - y^{(k)})
이 규칙은 출력이 정답인 경우 가중치를 변경하지 않고, 출력이 잘못된 경우 입력 벡터의 방향으로 가중치를 조정한다.
3. 퍼셉트론 수렴 정리
퍼셉트론 학습 규칙의 수렴성에 관한 학술적 결과는 Novikoff의 On Convergence Proofs on Perceptrons (1962)와 Block의 The Perceptron: A Model for Brain Functioning (1962)에 의하여 제시되었다. 이 정리는 다음과 같이 기술된다.
- 가정: 학습 데이터가 선형 분리 가능(linearly separable)하다.
- 결론: 퍼셉트론 학습 규칙은 유한한 수의 갱신 후에 모든 학습 데이터를 정확히 분류하는 가중치 벡터에 수렴한다.
이 정리는 퍼셉트론의 학습 가능성에 관한 학술적 보장을 제공한다.
4. 표현력의 한계
퍼셉트론은 단일 임계값 함수에 의하여 입력 공간을 두 영역으로 분할하므로, 그 결정 경계는 입력 공간의 초평면(hyperplane)이다. 따라서 퍼셉트론은 선형 분리 가능한 분류 문제에 한정되어 학습이 가능하다. 선형 분리가 불가능한 문제의 대표적 사례로 배타적 논리합(exclusive or, XOR) 함수가 있으며, 이 함수는 단일 퍼셉트론으로 표현할 수 없다.
이 한계는 Minsky와 Papert가 1969년에 발간한 Perceptrons: An Introduction to Computational Geometry에서 학술적으로 명확히 분석되었다. 이 분석은 퍼셉트론과 그 직접적 확장의 표현력 한계를 보임으로써 1970년대 인공 신경망 연구의 침체에 학술적 영향을 미쳤다.
5. 다층 구조로의 확장
퍼셉트론의 표현력 한계는 여러 개의 퍼셉트론을 층(layer)으로 결합한 다층 구조에 의하여 극복될 수 있음이 학술적으로 입증되어 있다. 다층 구조의 학습은 미분 가능한 활성화 함수와 역전파(backpropagation) 알고리즘의 결합에 의하여 가능해졌으며, 이러한 발전은 다층 퍼셉트론과 심층 학습의 출현으로 이어졌다.
6. 학술적 의의
퍼셉트론은 다음의 학술적 의의를 가진다.
- 학습 가능한 인공 신경망의 최초의 모형 중 하나
- 선형 분리 가능 문제에 대한 학습 수렴성의 학술적 보장
- 표현력의 한계에 대한 학술적 분석을 통하여 다층 구조의 필요성을 명확화
- 후속 연구에서 일반화 이론, 통계 학습 이론, 커널 방법의 학술적 출발점
7. 출처 및 버전 정보
- Rosenblatt, F., The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain, Psychological Review, 1958
- Novikoff, A. B. J., On Convergence Proofs on Perceptrons, Symposium on the Mathematical Theory of Automata, 1962
- Block, H. D., The Perceptron: A Model for Brain Functioning, Reviews of Modern Physics, 1962
- Minsky, M., Papert, S., Perceptrons: An Introduction to Computational Geometry, MIT Press, 1969
- Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
- Bishop, C. M., Pattern Recognition and Machine Learning, Springer, 2006