2.11 MCP 뉴런 모델의 수학적 표현과 이진 임계값 함수

2.11 MCP 뉴런 모델의 수학적 표현과 이진 임계값 함수

1. MCP 뉴런의 수학적 표현

맥컬록-피츠(MCP) 뉴런의 수학적 모델은 두 단계의 연산으로 구성된다: 입력의 가중합(Weighted Sum) 계산과 임계값 함수(Threshold Function)의 적용이다.

1.1 가중합 연산

n개의 이진 입력 x_1, x_2, \ldots, x_n \in \{0, 1\}에 대해, 각 입력에 가중치 w_1, w_2, \ldots, w_n \in \mathbb{R}이 부여된다. 가중합(또는 순 입력, Net Input) z는 다음과 같이 정의된다:

z = \sum_{i=1}^{n} w_i x_i = w_1 x_1 + w_2 x_2 + \cdots + w_n x_n

벡터 형식으로 표현하면:

z = \mathbf{w}^T \mathbf{x}

여기서 \mathbf{w} = (w_1, w_2, \ldots, w_n)^T는 가중치 벡터, \mathbf{x} = (x_1, x_2, \ldots, x_n)^T는 입력 벡터이다.

편향(Bias) b를 포함하면:

z = \sum_{i=1}^{n} w_i x_i + b = \mathbf{w}^T \mathbf{x} + b

편향 b는 문턱값 \thetab = -\theta의 관계에 있으며, 임계값 조건 z \geq \thetaz - \theta \geq 0, 즉 \mathbf{w}^T \mathbf{x} + b \geq 0으로 동등하게 표현된다.

임계값 함수(Threshold Function)

가중합 z에 대해 이진 임계값 함수(Binary Threshold Function, Heaviside Step Function)가 적용되어 출력 y가 결정된다:

y = H(z - \theta) = \begin{cases} 1 & \text{if } z \geq \theta \\ 0 & \text{if } z < \theta \end{cases}

또는 편향을 사용하면:

y = H(z) = H(\mathbf{w}^T \mathbf{x} + b) = \begin{cases} 1 & \text{if } \mathbf{w}^T \mathbf{x} + b \geq 0 \\ 0 & \text{if } \mathbf{w}^T \mathbf{x} + b < 0 \end{cases}

여기서 H(\cdot)는 헤비사이드 계단 함수(Heaviside Step Function)이다.

이진 임계값 함수의 수학적 성질

불연속성

이진 임계값 함수는 z = 0(또는 z = \theta)에서 불연속(Discontinuous)이다. 이 불연속성은 미분 불가능성을 함의하며, 이는 경사 기반 학습(Gradient-Based Learning)의 직접 적용을 불가능하게 하는 근본적 한계이다. 이 한계의 극복이 이후 연속적 활성화 함수(시그모이드, ReLU 등)의 도입을 촉진하였다.

기하학적 해석: 초평면에 의한 분류

MCP 뉴런의 결정 경계(Decision Boundary)는 입력 공간 \mathbb{R}^n에서 초평면(Hyperplane)이다:

\mathbf{w}^T \mathbf{x} + b = 0

이 초평면은 입력 공간을 두 반공간(Half-Space)으로 분할한다:

  • \mathbf{w}^T \mathbf{x} + b \geq 0: 출력 1 (활성화)
  • \mathbf{w}^T \mathbf{x} + b < 0: 출력 0 (비활성화)

가중치 벡터 \mathbf{w}는 초평면의 법선 벡터(Normal Vector)이며, 편향 b는 초평면의 원점으로부터의 변위를 결정한다.

1.2 선형 분리 가능성(Linear Separability)

MCP 뉴런이 불 함수 f: \{0,1\}^n \rightarrow \{0,1\}을 구현할 수 있는 필요충분조건은 f가 선형 분리 가능(Linearly Separable)하다는 것이다. 즉, f^{-1}(1) = \{\mathbf{x} \mid f(\mathbf{x}) = 1\}f^{-1}(0) = \{\mathbf{x} \mid f(\mathbf{x}) = 0\}을 분리하는 초평면이 존재해야 한다.

n개의 변수를 가진 불 함수의 총 수는 2^{2^n}이다. 이 중 선형 분리 가능한 함수의 수는 n이 증가함에 따라 전체 불 함수 수에 비해 급격히 감소한다:

n전체 불 함수 수선형 분리 가능 함수 수비율
2161487.5%
325610440.6%
465,5361,8822.9%
5\approx 4.3 \times 10^994,572\approx 0.002\%

이 결과는 단일 MCP 뉴런(단일 퍼셉트론)의 표현력이 심각하게 제한적임을 보여준다.

2. MCP 뉴런의 일반화: 현대 인공 뉴런

현대 인공 신경망의 뉴런은 MCP 뉴런의 일반화이며, 다음의 두 가지 주요 확장을 포함한다:

2.1 연속 활성화 함수

이진 임계값 함수 대신 연속적이고 미분 가능한 활성화 함수(Activation Function)를 사용한다:

시그모이드(Sigmoid): \sigma(z) = \frac{1}{1 + e^{-z}}

하이퍼볼릭 탄젠트(Tanh): \tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}

ReLU(Rectified Linear Unit): \text{ReLU}(z) = \max(0, z)

이들 함수는 이진 임계값 함수의 연속적·미분 가능한 근사이며, 경사 하강법에 의한 학습을 가능하게 한다. 시그모이드의 경사도(Steepness) 매개변수 \beta를 증가시키면 시그모이드 함수는 이진 임계값 함수에 수렴한다:

\lim_{\beta \to \infty} \frac{1}{1 + e^{-\beta z}} = H(z)

실수 가중치와 연속 입력

MCP 모델의 이진 입력과 고정 가중치 대신, 실수 가중치 w_i \in \mathbb{R}과 연속 입력 x_i \in \mathbb{R}을 허용한다. 이를 통해 아날로그 정보의 처리와 경사 기반 가중치 학습이 가능해진다.

MCP 모델에서 현대 신경망으로의 발전 경로

MCP 뉴런은 이후의 모든 인공 신경망 모델의 출발점이다:

  1. MCP 뉴런(1943): 이진 입력, 고정 가중치, 이진 임계값 함수
  2. 퍼셉트론(1958): 실수 가중치, 학습 알고리즘(퍼셉트론 학습 규칙)
  3. 다층 퍼셉트론(1980년대): 은닉층, 연속 활성화 함수, 역전파 학습
  4. 심층 신경망(2010년대~): 다수의 은닉층, ReLU, 배치 정규화, 잔차 연결 등

이 발전 경로의 각 단계에서 뉴런의 기본 구조—입력의 가중합과 비선형 활성화 함수의 적용—는 MCP 모델에서 확립된 원형을 유지하고 있다. MCP 뉴런의 수학적 정식화는 현대 딥러닝의 가장 기본적인 계산 단위에 대한 수학적 원형을 제공한 것이다.