2.8 헤브 학습 규칙의 수학적 정식화와 연결 강도 갱신
1. 기본 헤브 학습 규칙의 수학적 정식화
헤브의 시냅스 가소성 원리를 수학적으로 정식화하면, 두 뉴런 i와 j 사이의 시냅스 가중치 w_{ij}의 변화량 \Delta w_{ij}는 시냅스 전 뉴런 i의 활성도 x_i와 시냅스 후 뉴런 j의 활성도 y_j의 곱에 비례한다:
\Delta w_{ij} = \eta \, x_i \, y_j
여기서 \eta > 0는 학습률(Learning Rate)이며, 시냅스 변화의 크기를 조절하는 양의 스칼라 상수이다.
이 규칙의 핵심 특성은 국소성(Locality)이다. 가중치 w_{ij}의 변화는 오직 해당 시냅스에 연결된 시냅스 전 뉴런 i와 시냅스 후 뉴런 j의 활성도에만 의존하며, 네트워크의 다른 뉴런이나 전역적(Global) 오류 신호를 필요로 하지 않는다.
연속 시간 형식
연속 시간(Continuous-Time)에서 헤브 학습 규칙은 다음의 미분 방정식으로 표현된다:
\frac{dw_{ij}}{dt} = \eta \, x_i(t) \, y_j(t)
이 형식에서 시냅스 가중치는 시간에 대해 연속적으로 변화하며, 변화율은 매 시점에서의 시냅스 전·후 활성도의 곱에 비례한다.
2. 벡터 및 행렬 형식
n개의 시냅스 전 뉴런의 활성도를 벡터 \mathbf{x} = (x_1, x_2, \ldots, x_n)^T로, m개의 시냅스 후 뉴런의 활성도를 벡터 \mathbf{y} = (y_1, y_2, \ldots, y_m)^T로, 가중치를 행렬 \mathbf{W} \in \mathbb{R}^{m \times n}으로 표현하면, 헤브 학습 규칙의 행렬 형식은 다음과 같다:
\Delta \mathbf{W} = \eta \, \mathbf{y} \, \mathbf{x}^T
이는 외적(Outer Product) \mathbf{y} \mathbf{x}^T에 비례하는 가중치 갱신이다.
기본 헤브 규칙의 불안정성 문제
기본 헤브 학습 규칙은 근본적인 불안정성(Instability) 문제를 갖는다. 시냅스 전·후 뉴런이 동시에 활성화되면 가중치가 증가하고, 증가된 가중치는 시냅스 후 뉴런의 활성도를 더욱 증가시키며, 이는 다시 가중치의 증가를 야기하는 양의 피드백(Positive Feedback) 루프가 형성된다. 이 과정은 가중치가 무한히 증가하는 발산(Divergence)으로 이어진다.
이 불안정성을 해결하기 위해 여러 수정된 헤브 학습 규칙이 제안되었다.
수정된 헤브 학습 규칙
가중치 감쇠(Weight Decay)
가중치에 감쇠 항(Decay Term)을 추가하여 무한 증가를 방지한다:
\Delta w_{ij} = \eta \, x_i \, y_j - \lambda \, w_{ij}
여기서 \lambda > 0는 감쇠 상수이다. 감쇠 항은 가중치를 0을 향해 끌어당기는 효과를 가지며, 헤브적 증가와 감쇠 사이의 균형점에서 가중치가 안정화된다.
2.1 오야 규칙(Oja’s Rule)
오야(Erkki Oja)는 1982년 “Simplified Neuron Model as a Principal Component Analyzer“에서 정규화된 헤브 학습 규칙을 제안하였다:
\Delta w_{ij} = \eta \, y_j (x_i - y_j \, w_{ij})
오야 규칙은 가중치 벡터의 노름(Norm)을 자동으로 1로 유지하는 자기 정규화(Self-Normalizing) 성질을 가진다. 오야 규칙에 의해 학습되는 가중치 벡터는 입력 데이터의 공분산 행렬(Covariance Matrix)의 제1 주성분(First Principal Component)에 수렴한다. 따라서 오야 규칙은 주성분 분석(Principal Component Analysis, PCA)의 온라인(Online) 신경망 구현이다.
오야 규칙의 수렴을 증명한다. 단일 출력 뉴런 y = \mathbf{w}^T \mathbf{x}에 대해 오야 규칙은 다음과 같다:
\Delta \mathbf{w} = \eta \, y (\mathbf{x} - y \, \mathbf{w})
기댓값을 취하면:
E[\Delta \mathbf{w}] = \eta \, (E[\mathbf{x} \mathbf{x}^T] \mathbf{w} - E[y^2] \mathbf{w}) = \eta \, (\mathbf{C} \mathbf{w} - (\mathbf{w}^T \mathbf{C} \mathbf{w}) \mathbf{w})
여기서 \mathbf{C} = E[\mathbf{x} \mathbf{x}^T]는 입력의 공분산 행렬이다. 평형 조건 E[\Delta \mathbf{w}] = 0에서 \mathbf{C} \mathbf{w} = (\mathbf{w}^T \mathbf{C} \mathbf{w}) \mathbf{w}이며, 이는 \mathbf{w}가 \mathbf{C}의 고유벡터(Eigenvector)임을 의미한다. 안정성 분석에 의해, 최대 고유값에 대응하는 고유벡터만이 안정 평형점(Stable Equilibrium)이다.
BCM 규칙(Bienenstock-Cooper-Munro Rule)
비넨스톡(Elie Bienenstock), 쿠퍼(Leon Cooper), 먼로(Paul Munro)는 1982년 활동 의존적 문턱값(Activity-Dependent Threshold)을 도입한 학습 규칙을 제안하였다:
\Delta w_{ij} = \eta \, x_i \, y_j \, (y_j - \theta_j)
여기서 \theta_j는 시냅스 후 뉴런 j의 활성도에 의존하는 가변적 문턱값이다. y_j > \theta_j이면 LTP(가중치 증가)가 발생하고, y_j < \theta_j이면 LTD(가중치 감소)가 발생한다. 문턱값 \theta_j 자체가 y_j의 최근 평균에 따라 조정됨으로써, 시스템의 안정성이 보장된다.
BCM 규칙은 시각 피질의 방위 선택성(Orientation Selectivity) 발달을 설명하는 신경과학적 모델로서도 사용된다.
3. 반헤브 학습(Anti-Hebbian Learning)
반헤브 학습은 시냅스 전·후 뉴런의 동시 활성화가 시냅스 강도를 약화시키는 규칙이다:
\Delta w_{ij} = -\eta \, x_i \, y_j
반헤브 학습은 측면 억제(Lateral Inhibition) 회로의 자기 조직화(Self-Organization)에서 역할을 하며, 독립 성분 분석(Independent Component Analysis, ICA)과의 관련성이 연구되었다.
헤브 학습의 현대적 위상
헤브 학습 규칙은 현대 딥러닝의 주류 학습 알고리즘인 역전파(Backpropagation)와 직접적 관계는 약하다. 역전파는 전역적 오류 신호에 기반한 경사 하강법(Gradient Descent)이며, 헤브 규칙의 국소성 원리를 따르지 않는다. 그러나 자기 지도 학습(Self-Supervised Learning), 대비 학습(Contrastive Learning), 에너지 기반 모델(Energy-Based Model) 등에서 헤브적 원리가 재조명되고 있으며, 생물학적으로 타당한 학습 알고리즘(Biologically Plausible Learning Algorithm)의 설계에서 헤브 학습은 핵심적 참조점으로 기능한다.