11.4 가중치(Weight)와 편향(Bias)

가중치(weight)와 편향(bias)은 인공 신경망의 학습 가능 매개 변수(learnable parameters)이다. 가중치는 입력 신호의 상대적 중요도를 표현하며, 편향은 가중 합에 더해지는 상수 항으로서 결정 경계의 위치를 이동시키는 역할을 한다. 이 절에서는 가중치와 편향의 학술적 정의, 기하학적 의미, 표현력에서의 역할, 매개 변수의 수에 관한 분석을 학습 순서에 따라 기술한다.

1. 학술적 정의

단일 인공 뉴런의 출력은 입력 벡터 $\mathbf{x} \in \mathbb{R}^{n}$ 에 대하여 다음과 같이 정의된다.

$z = \sum_{i=1}^{n} w_i x_i + b = \mathbf{w}^\top \mathbf{x} + b$
$y = \varphi(z)$

여기서 가중치 벡터 $\mathbf{w} = (w_1, w_2, \dots, w_n)^\top$ 는 각 입력 차원의 기여도를 표현하는 실수 매개 변수이며, 편향 $b$ 는 입력의 가중 합에 더해지는 실수 상수이다. 활성화 함수 $\varphi$ 는 가중 합 $z$ 를 비선형으로 변환하여 출력 $y$ 를 산출한다.

2. 가중치의 기하학적 의미

선형 함수 $z = \mathbf{w}^\top \mathbf{x} + b$ 의 등고선은 입력 공간에서의 초평면이다. 초평면의 방정식은 $\mathbf{w}^\top \mathbf{x} + b = c$ ( $c$ 는 상수)로 표현되며, 가중치 벡터 $\mathbf{w}$ 는 이 초평면의 법선 벡터(normal vector)이다. 따라서 가중치 벡터의 방향은 입력 공간에서 출력이 가장 빠르게 변화하는 방향을 가리킨다.

가중치 벡터의 크기 $\|\mathbf{w}\|$ 는 출력의 변화 속도와 직접적으로 관련된다. 동일한 입력 변화에 대하여 가중치 벡터의 크기가 클수록 출력의 변화가 크다.

3. 편향의 기하학적 의미

편향이 없는 경우 ( $b = 0$ ) 결정 경계 $\mathbf{w}^\top \mathbf{x} = 0$ 은 항상 원점을 지난다. 편향을 도입하면 결정 경계가 $\mathbf{w}^\top \mathbf{x} + b = 0$ 으로 이동되며, 원점을 지나지 않는 일반적 초평면을 표현할 수 있다. 결정 경계와 원점 사이의 부호 있는 거리는 $-b / \|\mathbf{w}\|$ 로 표현된다.

편향이 없는 신경망은 원점을 지나는 결정 경계로 표현 가능한 함수에 한정되므로, 편향의 도입은 표현력의 학술적 확장이다.

4. 다층 구조에서의 가중치와 편향

다층 퍼셉트론의 $\ell$ 번째 층은 가중치 행렬 $W^{(\ell)} \in \mathbb{R}^{d_\ell \times d_{\ell - 1}}$ 과 편향 벡터 $\mathbf{b}^{(\ell)} \in \mathbb{R}^{d_\ell}$ 을 가진다. 층의 출력은 다음과 같이 계산된다.

$\mathbf{z}^{(\ell)} = W^{(\ell)} \mathbf{a}^{(\ell - 1)} + \mathbf{b}^{(\ell)}$
$\mathbf{a}^{(\ell)} = \varphi^{(\ell)}(\mathbf{z}^{(\ell)})$

가중치 행렬의 각 행은 해당 층의 한 단위가 이전 층의 출력에 부여하는 가중치를 나타낸다. 편향 벡터의 각 성분은 해당 단위에 더해지는 상수이다.

5. 매개 변수의 수

다층 퍼셉트론의 매개 변수의 총 수는 다음과 같이 계산된다.

$\#\text{params} = \sum_{\ell=1}^{L} (d_\ell d_{\ell - 1} + d_\ell)$

여기서 $d_\ell$ 은 $\ell$ 번째 층의 너비, $L$ 은 층의 수이다. 매개 변수의 수는 신경망의 용량(capacity)과 학습 가능성에 직접적으로 관련되며, 학습 데이터의 양과의 균형이 중요하다.

11.4.6 표현력에서의 역할

가중치와 편향은 신경망의 표현력을 결정하는 학습 가능 자유도를 제공한다. 가중치는 입력 공간에서의 결정 경계의 방향과 곡률을 결정하며, 편향은 결정 경계의 위치를 결정한다. 비선형 활성화 함수와 결합하여 다층 구조에서는 매우 복잡한 함수의 근사가 가능해진다.

11.4.7 가중치의 정칙화

가중치의 크기는 일반화 성능과 직접적으로 관련된다. 가중치 감쇠(weight decay) 또는 $L_2$ 정칙화는 가중치의 크기를 제한하여 과적합을 완화하는 학술적 기법이다. 정칙화된 손실 함수는 다음과 같이 정의된다.

$\mathcal{L}_{\text{reg}} = \mathcal{L} + \lambda \sum_{\ell} \|W^{(\ell)}\|_F^2$

여기서 $\|\cdot\|_F$ 는 Frobenius 노름이며, $\lambda$ 는 정칙화 강도를 조절하는 하이퍼파라미터이다.

6. 출처 및 버전 정보

Rosenblatt, F., The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain, Psychological Review, 1958
Rumelhart, D. E., Hinton, G. E., Williams, R. J., Learning representations by back-propagating errors, Nature, 1986
Bishop, C. M., Pattern Recognition and Machine Learning, Springer, 2006
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
Murphy, K. P., Probabilistic Machine Learning: An Introduction, MIT Press, 2022