2.22 프랭크 로젠블랫의 퍼셉트론 제안과 신경망 연구의 시작
1. 로젠블랫의 학문적 배경
프랭크 로젠블랫(Frank Rosenblatt, 1928–1971)은 미국의 심리학자이자 컴퓨터 과학자로서, 코넬 대학교(Cornell University)의 코넬 항공 연구소(Cornell Aeronautical Laboratory)에서 연구하였다. 로젠블랫은 심리학과 신경과학적 배경을 가지고 있었으며, 맥컬록-피츠의 논리적 뉴런 모델과 헤브의 시냅스 가소성 이론에 영향을 받아 학습 가능한 신경망 모델의 개발에 착수하였다.
2. 퍼셉트론의 제안
로젠블랫은 1957년 코넬 항공 연구소 보고서 “The Perceptron: A Perceiving and Recognizing Automaton“에서 퍼셉트론(Perceptron)을 최초로 제안하였으며, 1958년 “The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain“을 “Psychological Review“에 발표하여 퍼셉트론을 학술적으로 공식화하였다.
3. 퍼셉트론의 구조
3.1 단층 퍼셉트론(Single-Layer Perceptron)
단층 퍼셉트론은 맥컬록-피츠 뉴런을 학습 가능하도록 확장한 모델이다. 입력층(Input Layer)과 출력층(Output Layer)으로 구성되며, 입력과 출력 사이의 가중치가 학습 알고리즘에 의해 조정된다.
n개의 입력 x_1, x_2, \ldots, x_n \in \mathbb{R}에 대해, 퍼셉트론의 출력 y는 다음과 같이 정의된다:
y = \begin{cases} 1 & \text{if } \displaystyle\sum_{i=1}^{n} w_i x_i + b \geq 0 \\ 0 & \text{otherwise} \end{cases}
여기서 w_i \in \mathbb{R}은 학습 가능한 가중치, b \in \mathbb{R}은 편향(Bias)이다.
MCP 뉴런과의 핵심적 차이는 가중치 w_i가 고정되어 있지 않고 학습 알고리즘에 의해 데이터로부터 조정된다는 것이다. 이 학습 가능성이 퍼셉트론을 MCP 뉴런으로부터 구별하는 혁신이다.
마크 I 퍼셉트론(Mark I Perceptron)
로젠블랫은 퍼셉트론을 물리적 하드웨어로 구현하였다. 마크 I 퍼셉트론은 400개의 광전 셀(Photocell)로 구성된 20×20 입력 격자를 가지며, 이 셀들이 무작위로 연결된 “연합 단위(Association Unit)“를 거쳐 출력 단위에 연결된다. 가중치는 전위차계(Potentiometer)로 구현되며, 학습 과정에서 전기 모터에 의해 물리적으로 조정되었다.
퍼셉트론 학습 규칙(Perceptron Learning Rule)
퍼셉트론 학습 규칙은 지도 학습(Supervised Learning) 알고리즘의 최초의 형태 중 하나이다.
알고리즘
입력-출력 쌍 (\mathbf{x}, t)에 대해, t \in \{0, 1\}는 목표 출력(Target Output)이고, y는 퍼셉트론의 실제 출력이다.
가중치 갱신 규칙:
w_i \leftarrow w_i + \eta (t - y) x_i
b \leftarrow b + \eta (t - y)
여기서 \eta > 0는 학습률(Learning Rate)이다.
이 규칙의 논리:
- 올바른 분류(t = y): t - y = 0이므로 가중치가 변하지 않는다.
- 거짓 음성(t = 1, y = 0): t - y = 1이므로 w_i \leftarrow w_i + \eta x_i. 활성 입력에 대한 가중치가 증가하여, 이후 유사한 입력에서 활성화될 가능성이 높아진다.
- 거짓 양성(t = 0, y = 1): t - y = -1이므로 w_i \leftarrow w_i - \eta x_i. 활성 입력에 대한 가중치가 감소하여, 이후 유사한 입력에서 비활성화될 가능성이 높아진다.
퍼셉트론 수렴 정리(Perceptron Convergence Theorem)
로젠블랫은 퍼셉트론 학습 규칙의 수렴성을 증명하였다. 퍼셉트론 수렴 정리(Perceptron Convergence Theorem)는 다음과 같이 진술된다:
훈련 데이터가 선형 분리 가능(Linearly Separable)하면, 퍼셉트론 학습 규칙은 유한 번의 반복 내에 모든 훈련 데이터를 올바르게 분류하는 가중치에 수렴한다.
이 정리는 퍼셉트론이 선형 분리 가능한 문제에 대해 반드시 해를 찾는다는 것을 보장하며, 기계 학습 이론 최초의 수렴성 보장 결과 중 하나이다.
증명의 핵심 아이디어: 가중치 벡터 \mathbf{w}와 최적 가중치 벡터 \mathbf{w}^* 사이의 각도(Angle)가 매 오류 수정 단계마다 감소함을 보인다. 가중치 벡터의 노름은 제한된 속도로 증가하는 반면, \mathbf{w}^*와의 내적은 매 단계 최소 일정량 증가하므로, 유한 단계 후 수렴이 보장된다.
퍼셉트론의 초기 성과와 언론의 관심
퍼셉트론은 발표 즉시 학술계와 언론의 큰 관심을 받았다. 기계가 데이터로부터 스스로 학습한다는 개념은 당시로서는 혁명적이었으며, 뉴욕 타임즈(The New York Times)는 1958년 “New Navy Device Learns By Doing“이라는 제목의 기사를 게재하여 퍼셉트론이 “걷고, 말하고, 쓰고, 자기 자신을 복제하고, 자기 자신의 존재를 의식하는” 기계로 발전할 수 있다는 전망을 보도하였다.
이러한 과도한 기대는 이후 퍼셉트론의 한계가 밝혀지면서 실망으로 전환되었다.
퍼셉트론의 한계
선형 분리 가능성의 제약
단층 퍼셉트론은 선형 분리 가능한 문제만을 해결할 수 있다. XOR 문제와 같이 선형 분리 불가능한 문제는 단층 퍼셉트론으로 해결할 수 없다. 민스키와 패퍼트의 “Perceptrons”(1969)는 이 한계를 엄밀하게 증명하였다.
다층 퍼셉트론의 필요성
단층 퍼셉트론의 한계를 극복하기 위해서는 은닉층(Hidden Layer)을 포함하는 다층 퍼셉트론(Multi-Layer Perceptron, MLP)이 필요하다. 다층 퍼셉트론은 비선형 결정 경계를 형성할 수 있으며, 원리적으로 임의의 연속 함수를 근사할 수 있다(범용 근사 정리). 그러나 다층 퍼셉트론의 효율적 학습 알고리즘(역전파)이 널리 보급되기까지는 약 20년의 시간이 소요되었다.
퍼셉트론의 학문사적 의의
퍼셉트론은 다음의 학문사적 의의를 갖는다.
첫째, 기계 학습(Machine Learning)의 개념을 최초로 실증하였다. 명시적 프로그래밍이 아닌 데이터로부터의 자동적 학습에 의해 기계의 행동이 결정된다는 원리를 최초로 물리적으로 구현하였다.
둘째, 인공 신경망 연구의 직접적 출발점을 제공하였다. 이후의 모든 신경망 모델—다층 퍼셉트론, 합성곱 신경망, 순환 신경망, 트랜스포머—은 퍼셉트론의 개념적 후속이다.
셋째, 학습 알고리즘의 이론적 분석(수렴 정리)의 선례를 수립하여, 기계 학습 이론(Computational Learning Theory)의 발전에 기여하였다.
로젠블랫의 퍼셉트론은 학습하는 기계의 최초의 체계적 실현으로서, 현대 딥러닝의 가장 직접적인 역사적 기원에 위치한다.