2.11 MCP 뉴런 모델의 수학적 표현과 이진 임계값 함수

1. MCP 뉴런의 수학적 표현

맥컬록-피츠(MCP) 뉴런의 수학적 모델은 두 단계의 연산으로 구성된다: 입력의 가중합(Weighted Sum) 계산과 임계값 함수(Threshold Function)의 적용이다.

1.1 가중합 연산

$n$ 개의 이진 입력 $x_1, x_2, \ldots, x_n \in \{0, 1\}$ 에 대해, 각 입력에 가중치 $w_1, w_2, \ldots, w_n \in \mathbb{R}$ 이 부여된다. 가중합(또는 순 입력, Net Input) $z$ 는 다음과 같이 정의된다:

$z = \sum_{i=1}^{n} w_i x_i = w_1 x_1 + w_2 x_2 + \cdots + w_n x_n$

벡터 형식으로 표현하면:

$z = \mathbf{w}^T \mathbf{x}$

여기서 $\mathbf{w} = (w_1, w_2, \ldots, w_n)^T$ 는 가중치 벡터, $\mathbf{x} = (x_1, x_2, \ldots, x_n)^T$ 는 입력 벡터이다.

편향(Bias) $b$ 를 포함하면:

$z = \sum_{i=1}^{n} w_i x_i + b = \mathbf{w}^T \mathbf{x} + b$

편향 $b$ 는 문턱값 $\theta$ 와 $b = -\theta$ 의 관계에 있으며, 임계값 조건 $z \geq \theta$ 는 $z - \theta \geq 0$ , 즉 $\mathbf{w}^T \mathbf{x} + b \geq 0$ 으로 동등하게 표현된다.

임계값 함수(Threshold Function)

가중합 $z$ 에 대해 이진 임계값 함수(Binary Threshold Function, Heaviside Step Function)가 적용되어 출력 $y$ 가 결정된다:

$y = H(z - \theta) = \begin{cases} 1 & \text{if } z \geq \theta \\ 0 & \text{if } z < \theta \end{cases}$

또는 편향을 사용하면:

$y = H(z) = H(\mathbf{w}^T \mathbf{x} + b) = \begin{cases} 1 & \text{if } \mathbf{w}^T \mathbf{x} + b \geq 0 \\ 0 & \text{if } \mathbf{w}^T \mathbf{x} + b < 0 \end{cases}$

여기서 $H(\cdot)$ 는 헤비사이드 계단 함수(Heaviside Step Function)이다.

이진 임계값 함수의 수학적 성질

불연속성

이진 임계값 함수는 $z = 0$ (또는 $z = \theta$ )에서 불연속(Discontinuous)이다. 이 불연속성은 미분 불가능성을 함의하며, 이는 경사 기반 학습(Gradient-Based Learning)의 직접 적용을 불가능하게 하는 근본적 한계이다. 이 한계의 극복이 이후 연속적 활성화 함수(시그모이드, ReLU 등)의 도입을 촉진하였다.

기하학적 해석: 초평면에 의한 분류

MCP 뉴런의 결정 경계(Decision Boundary)는 입력 공간 $\mathbb{R}^n$ 에서 초평면(Hyperplane)이다:

$\mathbf{w}^T \mathbf{x} + b = 0$

이 초평면은 입력 공간을 두 반공간(Half-Space)으로 분할한다:

$\mathbf{w}^T \mathbf{x} + b \geq 0$ : 출력 1 (활성화)
$\mathbf{w}^T \mathbf{x} + b < 0$ : 출력 0 (비활성화)

가중치 벡터 $\mathbf{w}$ 는 초평면의 법선 벡터(Normal Vector)이며, 편향 $b$ 는 초평면의 원점으로부터의 변위를 결정한다.

1.2 선형 분리 가능성(Linear Separability)

MCP 뉴런이 불 함수 $f: \{0,1\}^n \rightarrow \{0,1\}$ 을 구현할 수 있는 필요충분조건은 $f$ 가 선형 분리 가능(Linearly Separable)하다는 것이다. 즉, $f^{-1}(1) = \{\mathbf{x} \mid f(\mathbf{x}) = 1\}$ 과 $f^{-1}(0) = \{\mathbf{x} \mid f(\mathbf{x}) = 0\}$ 을 분리하는 초평면이 존재해야 한다.

$n$ 개의 변수를 가진 불 함수의 총 수는 $2^{2^n}$ 이다. 이 중 선형 분리 가능한 함수의 수는 $n$ 이 증가함에 따라 전체 불 함수 수에 비해 급격히 감소한다:

$n$	전체 불 함수 수	선형 분리 가능 함수 수	비율
2	16	14	87.5%
3	256	104	40.6%
4	65,536	1,882	2.9%
5	$\approx 4.3 \times 10^9$	94,572	$\approx 0.002\%$

이 결과는 단일 MCP 뉴런(단일 퍼셉트론)의 표현력이 심각하게 제한적임을 보여준다.

2. MCP 뉴런의 일반화: 현대 인공 뉴런

현대 인공 신경망의 뉴런은 MCP 뉴런의 일반화이며, 다음의 두 가지 주요 확장을 포함한다:

2.1 연속 활성화 함수

이진 임계값 함수 대신 연속적이고 미분 가능한 활성화 함수(Activation Function)를 사용한다:

시그모이드(Sigmoid): $\sigma(z) = \frac{1}{1 + e^{-z}}$

하이퍼볼릭 탄젠트(Tanh): $\tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}$

ReLU(Rectified Linear Unit): $\text{ReLU}(z) = \max(0, z)$

이들 함수는 이진 임계값 함수의 연속적·미분 가능한 근사이며, 경사 하강법에 의한 학습을 가능하게 한다. 시그모이드의 경사도(Steepness) 매개변수 $\beta$ 를 증가시키면 시그모이드 함수는 이진 임계값 함수에 수렴한다:

$\lim_{\beta \to \infty} \frac{1}{1 + e^{-\beta z}} = H(z)$

실수 가중치와 연속 입력

MCP 모델의 이진 입력과 고정 가중치 대신, 실수 가중치 $w_i \in \mathbb{R}$ 과 연속 입력 $x_i \in \mathbb{R}$ 을 허용한다. 이를 통해 아날로그 정보의 처리와 경사 기반 가중치 학습이 가능해진다.

MCP 모델에서 현대 신경망으로의 발전 경로

MCP 뉴런은 이후의 모든 인공 신경망 모델의 출발점이다:

MCP 뉴런(1943): 이진 입력, 고정 가중치, 이진 임계값 함수
퍼셉트론(1958): 실수 가중치, 학습 알고리즘(퍼셉트론 학습 규칙)
다층 퍼셉트론(1980년대): 은닉층, 연속 활성화 함수, 역전파 학습
심층 신경망(2010년대~): 다수의 은닉층, ReLU, 배치 정규화, 잔차 연결 등

이 발전 경로의 각 단계에서 뉴런의 기본 구조—입력의 가중합과 비선형 활성화 함수의 적용—는 MCP 모델에서 확립된 원형을 유지하고 있다. MCP 뉴런의 수학적 정식화는 현대 딥러닝의 가장 기본적인 계산 단위에 대한 수학적 원형을 제공한 것이다.