12.10 평균 제곱 오차(Mean Squared Error)

평균 제곱 오차(Mean Squared Error, MSE)는 회귀 과제에서 가장 광범위하게 사용되는 손실 함수이다. MSE는 예측과 목표 값의 차이의 제곱을 평균한 양으로 정의되며, 학술적으로는 가우시안 분포의 음의 로그 우도와 동등한 형태로 해석된다. 이 절에서는 MSE의 정의, 통계적 해석, 도함수, 학술적 특성, 한계, 활용 사례를 학습 순서에 따라 기술한다.

1. 정의

스칼라 회귀 과제에서 학습 데이터 $\{(\mathbf{x}^{(k)}, y^{(k)})\}_{k=1}^{N}$ 에 대한 평균 제곱 오차는 다음과 같이 정의된다.

$\text{MSE}(\theta) = \frac{1}{N} \sum_{k=1}^{N} \left( f_\theta(\mathbf{x}^{(k)}) - y^{(k)} \right)^{2}$

벡터 출력의 회귀 과제에서는 다음과 같이 일반화된다.

$\text{MSE}(\theta) = \frac{1}{N} \sum_{k=1}^{N} \left\| f_\theta(\mathbf{x}^{(k)}) - \mathbf{y}^{(k)} \right\|_{2}^{2}$

여기서 $\|\cdot\|_2$ 는 유클리드 노름이다. 단일 표본에 대한 손실은 다음과 같다.

$\ell(\hat{\mathbf{y}}, \mathbf{y}) = \|\hat{\mathbf{y}} - \mathbf{y}\|_{2}^{2}$

12.10.2 통계적 해석

MSE는 가우시안 분포의 최대 우도 추정과 학술적으로 동등하다. 목표 값이 조건부 가우시안 분포 $p(\mathbf{y} \mid \mathbf{x}; \theta) = \mathcal{N}(\mathbf{y}; f_\theta(\mathbf{x}), \sigma^{2} I)$ 를 따른다고 가정하면, 음의 로그 우도는 다음과 같이 표현된다.

$-\log p(\mathbf{y} \mid \mathbf{x}; \theta) = \frac{1}{2 \sigma^{2}} \|\mathbf{y} - f_\theta(\mathbf{x})\|_{2}^{2} + \text{const}$

여기서 상수 항은 $\theta$ 에 의존하지 않으므로, 우도의 최대화는 MSE의 최소화와 동등하다. 이러한 해석은 MSE가 가우시안 잡음 모형 하에서 최대 우도 추정의 자연스러운 손실 함수임을 학술적으로 정당화한다.

2. 도함수

단일 표본의 MSE 손실에 대한 예측 $\hat{y}$ 의 미분은 다음과 같다.

$\frac{\partial \ell}{\partial \hat{y}} = 2(\hat{y} - y)$

벡터 출력의 경우 다음과 같다.

$\frac{\partial \ell}{\partial \hat{\mathbf{y}}} = 2(\hat{\mathbf{y}} - \mathbf{y})$

이 단순한 형태는 MSE가 학습 신호로 사용될 때의 학술적·계산적 장점을 제공한다.

3. 학술적 특성

MSE의 주요 학술적 특성은 다음과 같다.

비음성: 항상 0 이상의 값을 가진다.
미분 가능성: 모든 점에서 미분 가능하다.
볼록성: 예측 값에 대하여 볼록 함수이다.
큰 오차에 대한 강한 페널티: 오차의 제곱이므로 큰 오차에 대한 페널티가 지배적이다.
대칭성: 양의 오차와 음의 오차에 대하여 동일한 페널티를 부여한다.

4. 한계

MSE는 다음의 학술적 한계를 가진다.

4.1 이상치에 대한 민감성

MSE는 큰 오차에 대하여 제곱 페널티를 부여하므로 이상치(outlier)에 대한 민감성이 크다. 이상치가 학습 데이터에 포함된 경우 학습이 이상치에 의하여 강하게 영향을 받을 수 있다. 이러한 한계를 완화하기 위하여 평균 절대 오차(MAE) 또는 Huber 손실이 학술적으로 제안되어 왔다.

4.2 스케일 의존성

MSE의 값은 출력의 스케일에 따라 달라지므로, 서로 다른 출력 변수가 결합된 경우 스케일이 큰 변수가 손실에 지배적인 기여를 한다. 이를 완화하기 위하여 출력의 정규화나 스케일 가중이 사용된다.

4.3 등방성 가우시안 가정의 한계

MSE는 출력의 잔차가 등방성 가우시안 분포를 따른다는 가정에 기반한다. 이 가정이 실제 데이터와 일치하지 않는 경우 다른 손실 함수가 학술적으로 더 적합할 수 있다.

5. 활용 사례

MSE는 다음의 학술적 활용 사례에서 사용된다.

회귀 과제: 연속적 출력을 가지는 회귀 과제의 표준 손실 함수
자기 부호화기(autoencoder): 입력의 재구성 손실로 사용
신호 복원: 잡음 제거, 초해상도(super-resolution) 등의 신호 복원 과제
정규화된 회귀: $L_2$ 정칙화와 결합된 능형 회귀(ridge regression)
강화 학습의 가치 함수 학습: TD 오차의 제곱 손실로 사용

6. 변형과 관련 손실 함수

MSE의 변형으로는 다음의 손실 함수가 학술적으로 사용된다.

평균 제곱근 오차(Root Mean Squared Error, RMSE): MSE의 제곱근으로, 출력과 동일한 단위를 가진다.
평균 절대 오차(Mean Absolute Error, MAE): 절대값을 사용하여 이상치에 대한 강건성이 향상된다.
Huber 손실: 작은 오차에는 MSE를, 큰 오차에는 MAE를 적용하는 결합 손실
로그 코사인 손실(Log-Cosh loss): $\log \cosh$ 함수에 기반한 매끄러운 손실

7. 출처 및 버전 정보

Bishop, C. M., Pattern Recognition and Machine Learning, Springer, 2006
Hastie, T., Tibshirani, R., Friedman, J., The Elements of Statistical Learning, Springer, 2009
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
Huber, P. J., Robust Estimation of a Location Parameter, The Annals of Mathematical Statistics, 1964
Murphy, K. P., Probabilistic Machine Learning: An Introduction, MIT Press, 2022