헤비안 학습

헤비안 학습

1. 학습의 신경과학적 초석

1.1 도널드 O. 헵(Donald O. Hebb)의 제안과 『행동의 조직화』

1949년, 캐나다의 심리학자 도널드 올딩 헵(Donald Olding Hebb)은 그의 기념비적인 저서 『행동의 조직화: 신경심리학적 이론 (The Organization of Behavior: A Neuropsychological Theory)』을 통해 현대 신경과학과 인공지능의 흐름을 바꾼 이론적 토대를 제시했다.1 이 책에서 그는 학습과 기억이라는 추상적인 정신 과정을 뇌의 물리적 변화와 연결하는 구체적인 메커니즘을 제안했는데, 이는 당시 심리학과 생리학 사이에 존재하던 깊은 간극을 메우는 혁신적인 시도였다.4 헵의 이론은 1932년부터 1945년에 걸쳐 작성된 여러 미발표 논문들을 포함하여, 17년 이상에 걸친 그의 깊은 사유와 연구의 결정체였다.7

헵의 제안은 다음과 같은 구절로 압축된다: “어떤 뉴런 A의 축삭이 뉴런 B를 흥분시킬 만큼 충분히 가까이 있고, 반복적이고 지속적으로 B를 활성화시키는 데 관여한다면, A가 B를 활성화시키는 효율성이 증가하는 어떤 성장 과정이나 대사 변화가 한쪽 또는 양쪽 세포 모두에서 일어난다”.3 이 원리는 훗날 “함께 활성화되는 뉴런은 함께 연결된다 (Neurons that fire together, wire together)“라는 간결하고 직관적인 경구로 널리 알려지게 되었다.1 이 단순한 가설은 학습이 뇌의 시냅스 연결 강도가 변하는 물리적 과정이라는 개념을 확립했으며, 이후 신경과학 연구의 핵심 패러다임으로 자리 잡았다.

헵의 이론은 단순한 학습 규칙을 넘어, 행동이라는 거시적 현상을 뉴런 연결이라는 미시적 메커니즘으로 설명하려는 광범위한 시도였다는 점에서 그 중요성이 더욱 크다. 그의 배경을 살펴보면, 그는 순수 신경과학자가 아닌 심리학자로서 칼 래슐리(Karl Lashley)와 같은 행동주의 심리학자들의 영향을 깊이 받았다.4 그의 주된 관심사는 기억과 학습 같은 ’행동’의 신경학적 기반을 찾는 것이었다. 그의 저서 제목이 『시냅스 가소성의 원리』가 아닌 『행동의 조직화』라는 점은, 그의 목표가 미시적인 시냅스 변화 규칙 자체에 있는 것이 아니라, 그 규칙을 통해 어떻게 복잡한 행동과 인지가 ’조직화’되는지를 설명하는 데 있었음을 명확히 보여준다.1 따라서 헤비안 학습은 인공신경망의 가중치 업데이트 규칙 중 하나로만 이해하기보다는, 심리학과 신경과학을 잇는 거대한 ’이론적 프레임워크’로 접근해야 그 본질과 역사적 중요성을 온전히 파악할 수 있다.

1.2 핵심 개념: 시냅스 가소성, 세포 집합, 그리고 엔그램

헤비안 학습의 근간을 이루는 생물학적 현상은 시냅스 가소성(Synaptic Plasticity)이다. 이는 경험과 활동에 따라 뉴런 간의 연결 지점인 시냅스의 전달 효율, 즉 연결 강도가 변하는 능력을 의미한다.4 헤비안 원리는 이러한 시냅스 가소성이 어떻게 발생하는지에 대한 최초의 구체적인 이론적 모델을 제공했다.

헵은 이 원리를 바탕으로 ’세포 집합(Cell Assembly)’이라는 한 단계 더 높은 수준의 개념을 제안했다.3 세포 집합이란, 특정 자극에 의해 동시에 그리고 반복적으로 활성화되는 뉴런들이 헤비안 원리에 따라 서로 간의 연결을 강화하여 하나의 강력한 기능적 단위를 형성한 것을 말한다. 일단 형성된 세포 집합은, 집합에 속한 일부 뉴런만 활성화되어도 상호 강화된 연결을 통해 집합 전체가 활성화되는 ‘패턴 완성(pattern completion)’ 능력을 갖게 된다.10

이 세포 집합은 기억의 물리적 실체, 즉 ’엔그램(Engram)’의 가장 유력한 신경학적 기반으로 여겨진다.10 우리가 무언가를 학습하거나 기억할 때, 뇌의 특정 뉴런 그룹이 하나의 세포 집합으로 ’연결’되어 그 정보가 뇌에 각인된다는 것이다. 이러한 이론적 예측은 수십 년 후, 노벨상 수상자인 에릭 캔델(Eric Kandel)이 해양 군소(Aplysia californica)를 이용한 실험을 통해 시냅스 수준에서 활동 의존적인 연결 강도 변화(장기 강화, Long-Term Potentiation)가 실제로 일어남을 증명하면서 강력한 실험적 지지를 얻게 되었다.10 이처럼 헵의 이론은 단일 시냅스의 변화 규칙을 넘어, 여러 뉴런이 어떻게 조직화되어 복잡한 인지 기능을 수행하는지에 대한 거시적 이론의 핵심 구성 요소로서 기능한다.

2. 헤비안 학습의 수학적 원리

2.1 기본 헤비안 규칙의 공식화

“함께 활성화되는 뉴런은 함께 연결된다“는 헤비안 원리는 간단하면서도 강력한 수학적 공식으로 표현될 수 있다. 시냅스 전 뉴런 j에서 시냅스 후 뉴런 i로 향하는 연결 가중치 w_{ij}의 변화량(\Delta w_{ij})은 두 뉴런의 활성화 정도의 곱에 비례하는 것으로 모델링된다.1 가장 기본적인 형태의 헤비안 학습 규칙은 다음과 같다.
\Delta w_{ij} = \eta x_j y_i
이 공식의 각 변수는 다음과 같은 의미를 가진다.

  • \Delta w_{ij}: 뉴런 j에서 뉴런 i로의 시냅스 가중치 변화량이다.1
  • \eta: 학습률(learning rate)이라 불리는 작은 양의 상수로, 한 번의 학습 단계에서 가중치가 얼마나 크게 변할지를 조절하는 역할을 한다.1
  • x_j: 시냅스 전 뉴런(presynaptic neuron) j의 활성화 수준을 나타내며, 보통 입력 신호의 값으로 간주된다.1
  • y_i: 시냅스 후 뉴런(postsynaptic neuron) i의 활성화 수준을 나타내며, 보통 뉴런의 출력값으로 간주된다.1

이 공식은 헤비안 원리를 명료하게 수학적으로 구현한다.1 시냅스 전 뉴런

xj와 시냅스 후 뉴런 yi가 동시에 높은 활성화 값을 가지면(즉, 함께 활성화되면), 그 곱인 xjyi는 큰 양수가 되어 가중치 w_{ij}는 강하게 증가한다. 반대로, 둘 중 하나라도 활성화되지 않으면(값이 0 또는 낮으면) 곱은 0에 가까워져 가중치 변화는 거의 일어나지 않는다. 이처럼 헤비안 규칙은 두 뉴런 활동 사이의 상관관계를 자연스럽게 포착하여 이를 시냅스 연결 강도에 반영하는 메커니즘이다.13

2.2 비지도 학습 패러다임

헤비안 학습은 인공신경망 학습 패러다임에서 대표적인 비지도 학습(unsupervised learning) 규칙으로 분류된다.5 비지도 학습이란, 학습 데이터에 정답 레이블이 주어지지 않은 상태에서 데이터 자체의 내재적 구조나 패턴을 학습하는 방식을 말한다. 헤비안 규칙은 가중치를 업데이트하기 위해 “이 입력에 대한 정답은 이것이다“와 같은 외부의 감독 신호나, 전체 네트워크의 최종 출력과 정답 간의 차이를 나타내는 오차 신호를 필요로 하지 않는다.

대신, 헤비안 학습은 오직 연결에 직접 관여하는 두 뉴런의 국소적 정보(local information), 즉 각각의 활성화 수준(xj와 yi)에만 의존하여 가중치를 조절한다.5 이는 현대 딥러닝에서 주로 사용되는 역전파(backpropagation) 알고리즘과 근본적인 차이를 보인다. 역전파는 네트워크의 최종 출력층에서 계산된 오차를 입력층 방향으로 거꾸로 전파하면서 모든 가중치를 ‘전역적(global)’ 정보에 기반하여 업데이트한다. 이러한 국소성(locality)은 헤비안 학습이 생물학적으로 더 타당성 있는(biologically plausible) 학습 모델로 여겨지는 중요한 이유 중 하나다.15 실제 뇌의 뉴런은 전체 뇌의 목표나 오차에 대한 정보를 직접 알 수 없으며, 자신과 직접 연결된 뉴런들의 활동이라는 국소적 정보에 기반하여 시냅스를 변화시킬 것으로 추정되기 때문이다. 이처럼 헤비안 학습의 본질은 데이터 자체의 통계적 구조(예: 입력들 간의 상관관계)를 스스로 발견하고 이를 네트워크의 연결 구조에 반영하는 자기조직화(self-organization) 과정에 있다.

2.3 기본 규칙의 근본적 한계: 가중치 폭주 문제

기본 헤비안 규칙은 개념적으로 우아하고 단순하지만, 실용적으로는 심각한 문제를 내포하고 있다. 이 규칙은 본질적으로 양의 피드백 루프(positive feedback loop)를 생성한다.1 즉, 두 뉴런이 함께 활성화되어 가중치가 증가하면, 다음번에 시냅스 전 뉴런이 활성화되었을 때 시냅스 후 뉴런을 활성화시킬 확률이 더 높아진다. 이는 다시 두 뉴런의 동시 활성화 빈도를 높여 가중치를 더욱 가파르게 증가시키는 순환으로 이어진다. 이러한 과정이 반복되면 가중치가 통제 불가능하게 발산하여 결국 무한대에 가까워지는 ‘가중치 폭주(runaway weight growth)’ 또는 불안정성 문제가 발생한다.1

또한, 기본 공식 \Delta w_{ij} = \eta x_j y_i는 오직 가중치를 강화하는 메커니즘만 포함하고 있다. 뉴런의 활성화 값이 보통 음수가 아니라고 가정하면, 가중치는 항상 증가하거나 현 상태를 유지할 뿐, 감소하지 않는다. 이는 시냅스 연결을 약화시키는 과정, 즉 장기 약화(LTD)에 해당하는 메커니즘이 부재함을 의미한다.5 이로 인해 한번 학습된 연결은 잊히거나 수정될 수 없으며, 모든 뉴런이 결국 소수의 강력한 입력 패턴에만 반응하게 되어 네트워크의 유연성과 표현 능력이 심각하게 저하된다.

이러한 본질적인 불안정성 때문에, 기본 헤비안 규칙은 그 자체만으로는 실제 신경망 모델에 적용하기 어렵다. 따라서 이를 실용적인 학습 규칙으로 만들기 위해서는 가중치 증가를 억제하고 안정성을 확보하기 위한 별도의 수정 및 정규화(normalization) 전략이 반드시 필요하다.1 실제로 헤비안 학습 연구의 역사는 이 불안정성 문제를 어떻게 극복할 것인가에 대한 끊임없는 탐구의 과정이었다고 해도 과언이 아니다. 이 불안정성은 이론의 결함으로 볼 수도 있지만, 관점을 바꾸면 이것이 왜 오야의 규칙이나 BCM 규칙과 같은 더 정교하고 안정적인 모델들이 탄생해야만 했는지를 설명하는 강력한 ’동인(driver)’으로 작용했다. 만약 기본 규칙이 안정적이었다면 학습 이론의 발전은 다른 방향으로 흘러갔을 것이나, 이 ’폭주’라는 명백한 문제 덕분에 연구자들은 ’안정성 확보’라는 구체적인 목표에 집중하게 되었고, 이는 결과적으로 더 풍부하고 심오한 이론들의 탄생으로 이어졌다.

3. 안정성을 향한 확장: 주요 헤비안 학습 변형 규칙

기본 헤비안 규칙이 가진 불안정성 문제를 해결하기 위해 수많은 변형 규칙이 제안되었다. 그중에서도 오야의 규칙과 BCM 규칙은 각각 수학적 정규화와 생물학적 항상성이라는 다른 접근 방식을 통해 안정성을 확보하고, 나아가 더 고차원적인 계산 기능을 구현함으로써 헤비안 학습 이론을 크게 발전시켰다.

3.1 오야의 규칙 (Oja’s Rule): 정규화와 특징 추출

3.1.1 가중치 폭주 문제의 해결

1982년, 핀란드의 컴퓨터 과학자 에르키 오야(Erkki Oja)는 기본 헤비안 규칙에 가중치를 안정시키는 항을 추가하여 가중치 폭주 문제를 해결하는 우아한 방법을 제안했다.24 오야의 규칙은 가중치 벡터의 유클리드 놈(Euclidean norm), 즉 벡터의 길이를 일정하게(일반적으로 1) 유지하도록 하는 일종의 곱셈적 정규화(multiplicative normalization) 메커니즘을 도입한다.23 이는 가중치가 무한정 커지는 것을 막고 안정적인 값으로 수렴하도록 보장한다.

3.1.2 수학적 공식

오야의 규칙은 기존 헤비안 항에 출력과 현재 가중치에 비례하는 ‘감쇠(decay)’ 또는 ‘망각(forgetting)’ 항을 추가한 형태를 띤다. 단일 뉴런에 대한 오야의 규칙은 다음과 같이 표현된다.
\Delta w_i = \eta (x_i y - y^2 w_i)
벡터 형태로 표현하면 다음과 같다.
\Delta \mathbf{w} = \eta y (\mathbf{x} - y \mathbf{w})
여기서 첫 번째 항인 \eta y \mathbf{x}는 상관관계에 기반한 전통적인 헤비안 강화를 나타낸다. 이 규칙의 핵심은 두 번째 항인 - \eta y^2 \mathbf{w}에 있다. 이 항은 현재 가중치 벡터 \mathbf{w}에 비례하여 가중치를 감소시키는 역할을 한다. 특히, 뉴런의 출력 y가 클수록(즉, 뉴런이 강하게 활성화될수록) 감쇠 효과가 제곱으로 강해져, 가중치가 과도하게 커지는 것을 효과적으로 억제한다.24

3.1.3 주성분 분석(PCA)과의 심오한 연결

오야의 규칙이 갖는 가장 놀랍고 중요한 특징은, 이처럼 단순한 국소적 학습 규칙을 따르는 뉴런의 가중치 벡터 \mathbf{w}가 점차 입력 데이터의 제1 주성분(first principal component) 방향으로 수렴한다는 점이다.23 주성분 분석(PCA)은 데이터의 분산이 가장 큰 방향을 찾아 데이터를 저차원으로 투영하는 대표적인 통계적 기법이다. 데이터의 분산이 가장 큰 방향은 데이터의 가장 중요한 구조적 특징을 담고 있다고 해석할 수 있다. 따라서 오야의 규칙을 따르는 뉴런은 별도의 감독 없이 입력 데이터 스트림으로부터 가장 의미 있는 특징을 스스로 학습하게 된다.

3.1.4 기능 및 응용

이러한 특성 덕분에 오야의 규칙을 사용하는 뉴런은 효과적인 ’특징 추출기(feature extractor)’로 기능할 수 있다.12 고차원의 이미지나 음성 신호가 입력되었을 때, 이 뉴런은 데이터의 핵심적인 변화를 포착하는 방향으로 자신의 가중치를 조정하여, 원본 데이터를 저차원의 유의미한 정보로 압축한다. 이는 이미지 및 음성 처리와 같은 다양한 분야에서 널리 응용된다.23 더 나아가, 이 규칙을 여러 뉴런으로 확장한 일반화된 헤비안 알고리즘(Generalized Hebbian Algorithm, GHA)을 사용하면, 각 뉴런이 서로 다른 주성분(제2, 제3 주성분 등)을 순차적으로 학습하여 데이터의 다차원적 구조를 파악하는 것도 가능하다.25

3.2 BCM 규칙 (Bienenstock-Cooper-Munro Rule): 항상성과 경쟁

3.2.1 생물학적 항상성 모델링

오야의 규칙과 같은 해인 1982년, 엘리 비넨스톡(Elie Bienenstock), 레온 쿠퍼(Leon Cooper), 폴 먼로(Paul Munro)는 실제 뇌의 발달 과정, 특히 고양이의 시각 피질 뉴런이 경험에 따라 어떻게 특정 자극에 대한 선택성을 획득하는지를 설명하기 위해 더욱 정교하고 생물학적인 모델을 제안했다.22 BCM 규칙의 가장 핵심적인 아이디어는 시냅스 강도의 변화 방향(강화 또는 약화)을 결정하는 기준점, 즉 ’수정 임계값(θM)’이 고정되어 있지 않다는 것이다. 대신, 이 임계값은 뉴런 자신의 과거 평균 활성화 수준에 따라 동적으로 변화한다.22 이를 ’슬라이딩 임계값(sliding threshold)’이라고 부르며, 이는 뉴런의 활동을 안정적인 범위 내로 유지하려는 생물학적 항상성(homeostasis) 메커니즘을 모델링한 것이다.

3.2.2 양방향 가소성: LTP와 LTD

슬라이딩 임계값 메커니즘은 시냅스 가소성의 두 가지 중요한 형태인 장기 강화(Long-Term Potentiation, LTP)와 장기 약화(Long-Term Depression, LTD)를 자연스럽게 구현한다.22

  • 만약 현재 시냅스 후 뉴런의 활성화 수준 y가 동적 임계값 \theta_M보다 높으면, 현재 활성화된 시냅스들의 강도는 증가한다 (LTP).
  • 반대로, 활성화 수준 y가 임계값 \theta_M보다 낮지만 0보다 크면, 현재 활성화된 시냅스들의 강도는 감소한다 (LTD).

뉴런의 평균 활성도가 너무 낮아지면 임계값 \theta_M이 낮아져서 약한 자극에도 LTP가 쉽게 일어나도록 하고, 반대로 평균 활성도가 너무 높아지면 임계값 \theta_M이 높아져서 강한 자극에만 LTP가 일어나도록 조절된다. 이 과정을 통해 뉴런은 극단적인 비활성 또는 과활성 상태를 피하고 안정적인 작동 범위(dynamic range)를 유지하게 된다.

3.2.3 수학적 표현

BCM 규칙은 다음과 같은 미분 방정식 형태로 표현된다.
\frac{d\mathbf{w}}{dt} = \phi(y; \theta_M) \mathbf{x}

  • 여기서 \phi는 뉴런의 출력 y와 임계값 \theta_M에 의존하는 비선형 함수로, y = \theta_M에서 부호가 바뀌는 특징을 가진다.30 가장 널리 사용되는 형태는 \phi(y) = y(y - \theta_M)이다.
  • 임계값 \theta_My의 시간 평균 E[y]의 초선형(super-linear) 함수로 계산된다. 예를 들어, \theta_M = E[y^2]와 같이 정의된다.22

3.2.4 주요 응용: 시각 피질 모델링

BCM 규칙은 신경 발달 모델링, 특히 시각 피질 뉴런이 어떻게 특정 자극에 대한 선택성을 획득하는지 설명하는 데 매우 성공적으로 적용되었다.22 예를 들어, 다양한 방향의 선분 패턴에 노출된 BCM 뉴런은 점차 특정 방향의 선분에만 강하게 반응하는 ’방향 선택성(orientation selectivity)’을 발달시킨다. 또한, 양쪽 눈으로부터 입력을 받는 뉴런은 한쪽 눈을 가리는 것과 같은 비정상적인 시각 경험에 따라 한쪽 눈의 입력에만 주로 반응하는 ’양안 우세성(ocular dominance)’을 형성하는데, BCM 규칙은 이러한 현상을 정량적으로 예측하고 재현할 수 있다. 이는 BCM 규칙이 입력 패턴들 간의 암묵적인 경쟁을 유도하여 뉴런이 특정 자극에 대해 전문화되도록 만들기 때문이다.18

오야의 규칙과 BCM 규칙은 기본 헤비안 규칙의 불안정성이라는 공통의 문제에서 출발했지만, 각각 ’통계적 최적화’와 ’생물학적 항상성’이라는 서로 다른 철학적 접근을 통해 헤비안 학습 이론의 두 가지 중요한 진화 경로를 대표하게 되었다. 오야의 규칙은 ’어떻게 하면 가중치 벡터의 놈(norm)을 일정하게 유지할 것인가?’라는 수학적 제약 조건에서 출발하여, 결과적으로 데이터의 통계적 구조를 가장 효율적으로 표현하는 방법(PCA)을 학습하는 ’통계적 최적화’의 길을 걸었다. 반면, BCM 규칙은 ’뉴런은 어떻게 안정적인 발화 수준을 유지하면서도 입력에 선택적으로 반응하는가?’라는 생물학적 관찰에서 출발하여, LTP/LTD와 슬라이딩 임계값이라는 메커니즘을 통해 ’안정적인 생리적 상태 유지’라는 ’생물학적 항상성’의 길을 탐구했다. 이 두 규칙은 헤비안 원리가 어떻게 서로 다른 관점에서 정교화되어 각각 정보 처리와 신경 발달이라는 중요한 뇌 기능을 설명하는 강력한 모델로 발전할 수 있었는지를 보여주는 대표적인 사례다.

3.3 Table 1: 주요 헤비안 학습 규칙 비교

아래 표는 본문에서 논의된 세 가지 핵심적인 헤비안 학습 규칙의 특징을 요약하여 비교한다.

특징 (Feature)기본 헤비안 규칙 (Basic Hebbian Rule)오야의 규칙 (Oja’s Rule)BCM 규칙 (BCM Rule)
핵심 원리상관관계 기반 강화상관관계 기반 강화 + 정규화활동 의존적 양방향 가소성
수학적 공식\Delta w = \eta x y\Delta w = \eta y (x - y w)\frac{dw}{dt} = \phi(y; \theta_M) x
가중치 안정성불안정 (무한 증대)안정 (단위 길이로 수렴)안정 (동적 임계값으로 조절)
주요 기능연관 학습주성분 분석, 특징 추출입력 선택성, 항상성 유지
가소성 종류강화 (LTP)만 고려강화 및 정규화된 약화강화(LTP)와 약화(LTD) 모두 고려
생물학적 기반시냅스 가소성의 기본 원리시냅스 경쟁 및 포화시냅스 항상성, 메타가소성

4. 헤비안 학습의 응용: 연관 메모리에서 패턴 인식까지

헤비안 학습의 원리는 이론적 탐구를 넘어 인공지능의 다양한 분야에서 실용적인 모델을 구축하는 데 활용되었다. 특히 연관 메모리 시스템과 패턴 인식 분야에서 그 가능성을 입증했다.

4.1 홉필드 네트워크와 연관 메모리

4.1.1 구조 및 원리

1982년, 물리학자 존 홉필드(John Hopfield)는 헤비안 원리를 기반으로 하는 독특한 구조의 신경망 모델을 제안했다.40 홉필드 네트워크는 단일 층의 뉴런들이 서로 완전히 연결된 재귀적 신경망(recurrent neural network) 구조를 가진다. 즉, 모든 뉴런은 자기 자신을 제외한 다른 모든 뉴런과 양방향으로 연결되어 있으며, 한 뉴런의 출력은 다른 모든 뉴런의 입력으로 다시 피드백된다.20

이러한 재귀적 구조 덕분에 홉필드 네트워크는 ‘연관 메모리(associative memory)’ 또는 ’내용 기반 주소화 메모리(content-addressable memory)’로 작동할 수 있다.40 일반적인 컴퓨터 메모리가 특정 주소에 데이터를 저장하고 불러오는 것과 달리, 연관 메모리는 저장된 데이터의 일부나 노이즈가 섞인 불완전한 버전이 입력으로 주어졌을 때, 연관된 전체 원본 데이터를 복원해내는 능력을 가진다.41 이는 인간의 기억이 특정 단서(예: 얼굴의 일부, 노래의 한 소절)를 통해 전체 기억을 떠올리는 방식과 매우 유사하다.

4.1.2 헤비안 규칙을 이용한 패턴 저장

홉필드 네트워크는 헤비안 학습 규칙을 사용하여 여러 개의 패턴을 네트워크의 연결 가중치 행렬에 ’저장’한다. 일반적으로 뉴런의 상태는 이진 값(+1 또는 -1)으로 표현된다. p개의 N차원 이진 패턴 벡터(ξk, 여기서 k=1,…,p)를 저장하기 위한 뉴런 i와 j 사이의 가중치 w_{ij}는 다음과 같은 헤비안 외적(outer product) 규칙에 따라 계산된다.10
w_{ij} = \sum_{k=1}^{p} \xi_i^k \xi_j^k \quad \text{for } i \neq j, \text{ and } w_{ii} = 0
이 공식은 각 저장 패턴(ξk)에 대해, 두 뉴런(ξik와 ξjk)이 동일한 상태(+1이거나 -1)를 가질 때마다 연결 가중치를 1만큼 강화하고, 서로 다른 상태를 가질 때마다 -1만큼 약화시키는 과정을 모든 패턴에 대해 합산하는 것과 같다. 이 과정을 통해 저장하려는 패턴들의 통계적 상관관계 정보가 가중치 행렬에 인코딩된다.

4.1.3 에너지 함수와 안정 상태

홉필드 네트워크의 동작 원리는 물리학의 스핀 글라스 모델에서 영감을 받은 ‘에너지 함수’ 개념으로 설명될 수 있다.41 네트워크의 특정 상태(모든 뉴런 값의 조합)는 특정한 에너지 값을 가지며, 네트워크는 시간이 지남에 따라 전체 에너지를 감소시키는 방향으로 자신의 상태를 변화시킨다. 뉴런들은 비동기적으로(하나씩 무작위 순서로) 자신의 상태를 업데이트하는데, 이 업데이트 규칙은 항상 네트워크의 총 에너지를 감소시키거나 최소한 유지하도록 설계되어 있다.

이 과정은 결국 에너지의 지역 최솟값(local minimum)에 해당하는 안정된 상태, 즉 ’끌개(attractor)’에 도달하면서 멈추게 된다.41 헤비안 규칙으로 학습된 원본 패턴들이 바로 이 에너지 지형(energy landscape)의 깊은 계곡, 즉 안정적인 끌개 상태에 해당한다. 따라서 불완전한 패턴이 입력으로 주어지면, 네트워크는 에너지 계곡을 따라 미끄러져 내려가 가장 가까운 원본 패턴(끌개) 상태로 수렴하게 된다.

4.1.4 한계

홉필드 네트워크는 연관 메모리의 원리를 명쾌하게 보여주었지만, 몇 가지 실용적인 한계를 가지고 있다. 첫째, 저장 용량이 뉴런 수 N에 비해 매우 제한적이다(이론적으로 약 0.14N).20 이 용량을 초과하여 패턴을 저장하면 패턴 간의 간섭(crosstalk)이 심해져 정확한 복원이 어려워진다. 둘째, 저장된 패턴과 무관한 새로운 안정 상태인 ’가짜 상태(spurious states)’가 에너지 지형에 나타날 수 있어, 네트워크가 엉뚱한 패턴으로 수렴할 위험이 있다.20

4.2 패턴 인식 및 특징 추출

헤비안 학습은 본질적으로 입력 데이터에 반복적으로 나타나는 통계적 규칙성을 포착하여 연결 강도에 반영하는 메커니즘이므로, 패턴 인식(pattern recognition)에 자연스럽게 적용될 수 있다.1 네트워크는 자주 함께 나타나는 입력 특징들에 해당하는 뉴런들의 연결을 강화함으로써, 해당 패턴에 대한 일종의 ‘내부 표현(internal representation)’ 또는 ’기억’을 형성한다.

특히 오야의 규칙과 같이 안정화된 헤비안 학습 규칙은 이 과정을 더욱 정교하게 만든다. 앞서 설명했듯이, 오야의 규칙은 데이터의 주성분을 추출하는 것과 수학적으로 동일하다.12 이는 고차원 데이터(예: 수많은 픽셀로 구성된 이미지)가 주어졌을 때, 데이터의 본질적인 변화를 가장 잘 설명하는 핵심적인 ’특징’들을 자동으로 학습할 수 있음을 의미한다. 예를 들어, 다양한 얼굴 이미지들을 학습한 헤비안 네트워크는 눈, 코, 입의 평균적인 형태나 위치 관계와 같은 얼굴의 공통적인 특징들을 포착하는 가중치를 형성할 수 있다. 이렇게 학습된 특징들은 차원 축소, 노이즈 제거, 또는 다른 지도 학습 모델(예: 분류기)의 입력으로 사용되어 전체 시스템의 성능을 향상시키는 데 기여할 수 있다.49

4.3 실용적 구현 예시: Python 코드

기본적인 헤비안 학습 알고리즘은 Python의 NumPy 라이브러리를 사용하여 매우 간결하게 구현할 수 있다. 다음 코드는 특정 입력 패턴과 출력 패턴 간의 연관성을 학습하는 간단한 헤비안 네트워크의 예시이다.1

import numpy as np

class HebbianNetwork:
"""
간단한 헤비안 학습 네트워크 클래스.
"""
def __init__(self, input_size, output_size, learning_rate=0.1):
"""
네트워크 초기화. 가중치는 0으로 시작.
"""
self.weights = np.zeros((input_size, output_size))
self.learning_rate = learning_rate

def train(self, inputs, outputs):
"""
주어진 입력과 출력 쌍에 대해 가중치를 업데이트한다.
np.outer는 입력 벡터와 출력 벡터의 외적(outer product)을 계산하여
헤비안 업데이트 규칙을 행렬 형태로 효율적으로 구현한다.
"""
\# Δw = η * x * y^T
update = self.learning_rate * np.outer(inputs, outputs)
self.weights += update

def predict(self, inputs):
"""
학습된 가중치를 사용하여 입력을 기반으로 출력을 예측한다.
"""
return np.dot(inputs, self.weights)

# 예시: 4차원 입력 패턴과 2차원 출력 패턴을 연관 학습
network = HebbianNetwork(input_size=4, output_size=2)
input_pattern = np.array()
output_pattern = np.array()

print("초기 가중치 행렬:\n", network.weights)

# 학습 실행
network.train(input_pattern, output_pattern)

print("\n학습 후 가중치 행렬:\n", network.weights)

# 예측: 학습에 사용된 입력 패턴을 다시 넣어보면
# 출력 패턴 방향으로 활성화가 나타나는 것을 확인할 수 있다.
prediction = network.predict(input_pattern)
print("\n입력 패턴 에 대한 예측값:", prediction)

이 코드에서 np.outer(inputs, outputs) 함수는 입력 벡터와 출력 벡터의 외적을 계산하는데, 이는 헤비안 규칙 \Delta w_{ij} = \eta \cdot x_j \cdot y_i를 모든 i,j에 대해 동시에 계산하는 효율적인 행렬 연산이다. 이처럼 헤비안 학습의 수학적 원리는 간단한 코드로 변환되어 실제 데이터에 적용될 수 있다.

헤비안 학습의 응용 분야를 살펴보면, 동일한 국소적 학습 원리가 네트워크의 전체적인 연결 구조(topology)와 상호작용하여 전혀 다른 기능으로 발현된다는 점이 흥미롭다. 오야의 규칙과 같은 안정화된 헤비안 규칙이 피드포워드(feed-forward) 구조에 적용될 때, 네트워크는 입력 데이터의 통계적 구조를 포착하여 효율적인 ’표현(representation)’을 학습하는 방향으로 진화한다. 이는 PCA나 특징 추출과 같은 기능으로 이어지며, 뇌의 감각 피질이 외부 세계의 정보를 처리하고 압축하는 방식과 유사하다.24 반면, 동일한 규칙이 홉필드 네트워크와 같은 재귀(recurrent) 구조에 적용될 때, 네트워크는 내부 상태를 갖는 동적 시스템이 된다. 여기서 학습의 목표는 특정 내부 상태를 ’안정적인 고정점’으로 만드는 것이며, 이는 불완전한 단서로부터 완전한 상태를 복원하는 ‘동적 메모리’ 시스템을 구현한다.20 이는 뇌의 해마(hippocampus)가 기억을 저장하고 인출하는 방식에 비유될 수 있다. 이처럼 학습 규칙과 네트워크 아키텍처의 상호작용은 인공지능 시스템의 기능을 결정하는 중요한 원리임을 알 수 있다.

5. 결론: 현대 인공지능에서의 헤비안 학습의 재조명

5.1 헤비안 학습의 핵심 원칙 요약

헤비안 학습은 70여 년 전 제안된 이론이지만, 그 핵심 원칙들은 오늘날에도 여전히 유효하며 깊은 통찰을 제공한다. 그 원칙은 상관관계(correlation), 국소성(locality), 그리고 비지도성(unsupervision)이라는 세 가지 키워드로 요약할 수 있다. 즉, 통계적 상관관계에 기반하여, 외부의 감독 없이, 오직 국소적 정보만을 이용해 학습이 이루어진다는 것이다. 이 우아하고 강력한 원리는 뇌가 학습하는 방식에 대한 근본적인 모델을 제공했을 뿐만 아니라, 오야의 규칙, BCM 규칙, 홉필드 네트워크 등 정교한 수학적 분석과 다양한 계산적 응용을 낳는 풍부한 지적 토양이 되었다.

5.2 역전파와의 비교: 생물학적 타당성을 둘러싼 논쟁

현대 딥러닝의 눈부신 성공은 대부분 역전파(backpropagation) 알고리즘에 기반하고 있다. 역전파는 경사 하강법을 통해 복잡한 함수의 근사를 매우 효과적으로 학습하지만, 생물학적 타당성(biological plausibility) 측면에서는 지속적인 비판을 받아왔다.20 예를 들어, 역전파는 출력층의 오차 신호를 입력층까지 정확하게 역으로 전달하기 위해 순방향 경로와 대칭적인 가중치를 갖는 역방향 경로를 요구하는데, 뇌에서 이러한 구조가 존재한다는 증거는 발견되지 않았다. 또한, 모든 가중치 업데이트를 위해 전역적인 오차 정보가 필요한 점도 뇌의 작동 방식과는 거리가 멀다.

이에 반해, 헤비안 학습은 오직 시냅스 양단의 뉴런 활동이라는 국소적 정보만을 사용하므로 생물학적으로 훨씬 그럴듯한 대안으로 여겨져 왔다.15 이 때문에 뇌가 어떻게 학습하는지를 이해하려는 계산 신경과학 분야에서는 헤비안 기반 모델이 꾸준히 연구되고 있다. 최근에는 두 패러다임의 장점을 결합하려는 시도도 활발히 이루어지고 있다. 예를 들어, 전역적인 보상 신호(reward signal)가 국소적인 헤비안 가소성을 조절하는 ’보상 조절 헤비안 학습(reward-modulated Hebbian learning)’과 같은 모델은, 뇌가 어떻게 목표 지향적인 학습을 수행하는지에 대한 더 현실적인 설명을 제공한다.53

5.3 현대 딥러닝 연구에서의 새로운 의의와 전망

헤비안 학습은 단순히 과거의 이론적 유산에 머물러 있지 않다. 최근 인공지능 연구들은 헤비안 원리가 현대 딥러닝 모델이 가진 몇몇 문제점을 보완하고 성능을 향상시키는 데 기여할 수 있음을 보여주며 그 가치를 재조명하고 있다. 예를 들어, 오야의 규칙을 역전파 기반 학습에 결합하면, 심층 신경망(DNN)이 더 적은 데이터로, 그리고 학습 성능에 민감한 영향을 미치는 가중치 초기값 설정 문제에 덜 의존하며, 더 안정적으로 학습할 수 있음이 실험적으로 증명되었다.51 이는 헤비안 규칙이 네트워크의 활성화 신호가 사라지거나 폭주하는 것을 막는 일종의 동적 정규화 장치로 작용하기 때문이다.

더욱 흥미로운 발견은, 딥러닝에서 널리 사용되는 최적화 기법인 확률적 경사 하강법(SGD)에 정규화 기법인 가중치 감쇠(weight decay)를 적용한 학습 방식이, 특정 조건 하에서 그 기대값이 헤비안 규칙과 매우 유사한 형태로 나타난다는 이론적 분석이다.56 이는 전통적으로 완전히 다른 메커니즘으로 여겨졌던 경사 하강법 기반 학습과 헤비안 학습이 실제로는 깊은 수학적 연관성을 가질 수 있음을 시사한다. 이 관점에 따르면, 뇌에서 관찰되는 헤비안 가소성은 뇌 전체의 어떤 전역적 오차를 최소화하려는 최적화 과정의 ’국소적 발현(local manifestation)’일 수 있다. 즉, 뇌는 명시적인 역전파 신호 없이도 항상성 메커니즘(가중치 감쇠 등)과 신경 활동의 노이즈를 통해 간접적으로 전역 최적화를 달성하며, 그 과정에서 헤비안 규칙과 같은 현상이 나타난다는 것이다.

이러한 새로운 발견들은 두 학습 패러다임을 통합적으로 이해할 수 있는 길을 열어주고 있다. 앞으로 헤비안 학습 원리는 더 적은 데이터와 에너지로 학습하고, 더 생물학적으로 영감을 받은 차세대 인공지능 시스템을 개발하는 데 중요한 이론적, 실용적 단서를 제공할 것으로 기대된다.4 헵의 70년 전 통찰은 여전히 미래를 향하고 있다.

6. 참고 자료

  1. Brain-Inspired Learning: A Deep Dive into HebbNet - Kaggle, https://www.kaggle.com/code/swahajraza/brain-inspired-learning-a-deep-dive-into-hebbnet
  2. Organization of Behavior - Wikipedia, https://en.wikipedia.org/wiki/Organization_of_Behavior
  3. Donald Hebb Formulates the “Hebb Synapse” in Neuropsychological Theory, https://www.historyofinformation.com/detail.php?id=3902
  4. Hebbian Learning - The Decision Lab, https://thedecisionlab.com/reference-guide/neuroscience/hebbian-learning
  5. Hebbian Learning - AI Weekly Report, https://weeklyreport.ai/briefings/hebbian-learning/
  6. Donald Olding Hebb - Canadian Association for Neuroscience, https://can-acn.org/donald-olding-hebb/
  7. Donald O. Hebb and the Organization of Behavior: 17 years in the writing - ResearchGate, https://www.researchgate.net/publication/340474253_Donald_O_Hebb_and_the_Organization_of_Behavior_17_years_in_the_writing
  8. Donald O. Hebb and the Organization of Behavior: 17 years in the writing - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC7137474/
  9. The Organization of Behavior - A Neuropsychological Theory - National Institute for Play, https://nifplay.org/books/the-organization-of-behavior-a-neuropsychological-theory/
  10. Hebbian theory - Wikipedia, https://en.wikipedia.org/wiki/Hebbian_theory
  11. Hebbian learning – Knowledge and References - Taylor & Francis, https://taylorandfrancis.com/knowledge/Engineering_and_technology/Biomedical_engineering/Hebbian_learning/
  12. Unsupervised Hebbian Learning — Neurocomputing | by Amit Yadav - Medium, https://medium.com/@amit25173/unsupervised-hebbian-learning-neurocomputing-55d32aad06df
  13. Hebbian Learning, Principal Component Analysis, and Independent Component Analysis Hebbian Learning The Hebbian Synapse The Hebb, https://www.cs.cmu.edu/afs/cs/academic/class/15782-f06/slides/hebbpca.pdf
  14. 3.1 simple Hebbian Learning, https://www.ece.rice.edu/~erzsebet/ANNcourse/handouts502/course-cf-3.pdf
  15. Project 1: Hebbian Learning, https://cs.colby.edu/courses/S23/cs443/projects/p1hebb/p1_hebb.html
  16. Modeling Hebb Learning Rule for Unsupervised Learning - IJCAI, https://www.ijcai.org/proceedings/2017/0322.pdf
  17. 19.3 Unsupervised learning | Neuronal Dynamics online book, https://neuronaldynamics.epfl.ch/online/Ch19.S3.html
    1. Unsupervised Hebbian learning — Neurocomputing - Julien Vitay, https://julien-vitay.net/lecturenotes-neurocomputing/4-neurocomputing/5-Hebbian.html
  18. [D] State of Hebbian Learning Research : r/MachineLearning - Reddit, https://www.reddit.com/r/MachineLearning/comments/a9wnv0/d_state_of_hebbian_learning_research/
  19. Hopfield nets and the brain. In this article we will be discussing… | by Serban Liviu | Medium, https://medium.com/@serbanliviu/hopfield-nets-and-the-brain-e5880070cdba
  20. Stable Hebbian Learning from Spike Timing-Dependent Plasticity - PMC - PubMed Central, https://pmc.ncbi.nlm.nih.gov/articles/PMC6773092/
  21. BCM theory - Wikipedia, https://en.wikipedia.org/wiki/BCM_theory
  22. Why is Oja’s rule important in Neural Networks? - Quora, https://www.quora.com/Why-is-Ojas-rule-important-in-Neural-Networks
  23. Oja learning rule - Scholarpedia, http://www.scholarpedia.org/article/Oja_learning_rule
  24. Oja’s rule - Wikipedia, https://en.wikipedia.org/wiki/Oja%27s_rule
  25. Simplified neuron model as a principal component analyzer, https://neurophysics.ucsd.edu/courses/physics_171/Oja_1982.pdf
  26. ODE-Inspired Analysis for the Biological Version of Oja’s Rule in Solving Streaming PCA, https://proceedings.mlr.press/v125/chou20a.html
  27. [1911.02363] ODE-Inspired Analysis for the Biological Version of Oja’s Rule in Solving Streaming PCA - arXiv, https://arxiv.org/abs/1911.02363
  28. Oja’s rule - Bionity, https://www.bionity.com/en/encyclopedia/Oja%27s_rule.html
  29. Emergent Dynamical Properties of the BCM Learning Rule - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC5318375/
  30. BCM theory - Scholarpedia, http://www.scholarpedia.org/article/BCM_theory
  31. Heterosynaptic metaplasticity in the hippocampus in vivo: A BCM-like modifiable threshold for LTP | PNAS, https://www.pnas.org/doi/10.1073/pnas.181342098
  32. Generalized Bienenstock–Cooper–Munro rule for spiking neurons that maximizes information transmission | PNAS, https://www.pnas.org/doi/10.1073/pnas.0500495102
  33. The BCM theory of synapse modification at 30: interaction of theory with experiment - GitHub Pages, https://brabeeba.github.io/neuralReadingGroup/cooper.pdf
  34. A triplet spike-timing–dependent plasticity model generalizes the Bienenstock–Cooper–Munro rule to higher-order spatiotemporal correlations - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC3228426/
  35. Emergent Dynamical Properties of the BCM Learning Rule, https://d-nb.info/1127641212/34
  36. Weight dependence in BCM leads to adjustable synaptic competition - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC9666303/
  37. Objective Function Formulation of the BCM Theory of Visual Cortical Plasticity: Statistical Connections, Stability Conditions - School of Mathematical Sciences, http://www.math.tau.ac.il/~nin/papers/cooper.pdf
  38. Synaptic plasticity in visual cortex: comparison of theory with experiment | Journal of Neurophysiology | American Physiological Society, https://journals.physiology.org/doi/10.1152/jn.1991.66.5.1785
  39. Hopfield network - Wikipedia, https://en.wikipedia.org/wiki/Hopfield_network
  40. Supervised Learning in Neural Networks (Part 4) Hopfield Networks, https://www.philadelphia.edu.jo/academics/qhamarsheh/uploads/Lecture%2011%20-Supervised%20Learning%20_Hopfield%20Networks%20-(Part%204).pdf
  41. Understanding Hebbian learning in Hopfield networks - Fabrizio Musacchio, https://www.fabriziomusacchio.com/blog/2024-03-03-hebbian_learning_and_hopfield_networks/
  42. 홉필드 네트워크 - 위키백과, 우리 모두의 백과사전, https://ko.wikipedia.org/wiki/%ED%99%89%ED%95%84%EB%93%9C_%EB%84%A4%ED%8A%B8%EC%9B%8C%ED%81%AC
    1. Hopfield networks — Neurocomputing - Julien Vitay, https://julien-vitay.net/lecturenotes-neurocomputing/4-neurocomputing/2-Hopfield.html
  43. Modern Hopfield network and associative memory | by Farshad Noravesh - Medium, https://medium.com/@noraveshfarshad/modern-hopfield-network-and-associative-memory-55f97949e2f2
  44. [지능형 시스템] Chapter 4. 홉필드 네트워크 Hopfield Net - velog, https://velog.io/@diduya/%EC%A7%80%EB%8A%A5%ED%98%95-%EC%8B%9C%EC%8A%A4%ED%85%9C-Chapter-4.-%ED%99%89%ED%95%84%EB%93%9C-%EB%84%A4%ED%8A%B8%EC%9B%8C%ED%81%AC-Hopfield-Net
  45. Prototype Analysis in Hopfield Networks with Hebbian Learning - arXiv, https://arxiv.org/html/2407.03342v1
  46. www.geeksforgeeks.org, https://www.geeksforgeeks.org/machine-learning/how-to-utilize-hebbian-learning/#:~:text=Application%20of%20Hebbian%20Learning&text=Pattern%20Recognition%3A%20The%20network%20can,outputs%20associated%20with%20given%20inputs.
  47. Investigation of Modified Hebbian Rules 수정 헤비안 규칙들에 대한 고찰, https://www.npsm-kps.org/journal/download_pdf.php?doi=10.3938/NPSM.71.579
  48. How to Utilize Hebbian Learning - GeeksforGeeks, https://www.geeksforgeeks.org/machine-learning/how-to-utilize-hebbian-learning/
  49. (PDF) Oja’s plasticity rule overcomes several challenges of training neural networks under biological constraints - ResearchGate, https://www.researchgate.net/publication/383216690_Oja’s_plasticity_rule_overcomes_several_challenges_of_training_neural_networks_under_biological_constraints
  50. How Far Can You Go with Hebbian Learning, and When Does it Lead you Astray?, https://stanford.edu/~jlmcc/papers/McClellandIPHowFar.pdf
  51. A Reward-Modulated Hebbian Learning Rule Can Explain Experimentally Observed Network Reorganization in a Brain Control Task | Journal of Neuroscience, https://www.jneurosci.org/content/30/25/8400
  52. A Reward-Modulated Hebbian Learning Rule Can Explain Experimentally Observed Network Reorganization in a Brain Control Task - PubMed Central, https://pmc.ncbi.nlm.nih.gov/articles/PMC2917246/
  53. Oja’s plasticity rule overcomes several challenges of training neural networks under biological constraints - arXiv, https://arxiv.org/html/2408.08408v1
  54. Emergence of Hebbian Dynamics in Regularized Non-Local Learners - arXiv, https://arxiv.org/html/2505.18069v1
  55. Can a Hebbian-like learning rule be avoiding the curse of dimensionality in sparse distributed data? - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC11588804/