8.75 정규화 회귀(릿지, 라소)

1. 정규화의 필요성

일반 최소 제곱(OLS) 회귀는 다음의 경우 문제가 발생한다.

다중공선성: 설명 변수 간 강한 상관이 있으면 $\mathbf{X}^T\mathbf{X}$ 의 조건수가 크고 $\hat{\boldsymbol{\beta}}$ 의 분산이 급증
고차원: 변수 수 $p$ 가 관측 수 $n$ 에 가깝거나 초과하면 해가 유일하지 않음
과적합: 모델 복잡도가 높아 훈련 데이터에 과적합되고 일반화 성능이 저하

정규화(regularization)는 손실 함수에 벌점 항을 추가하여 이러한 문제를 완화한다.

2. 능선 회귀(Ridge Regression)

2.1 정의

능선 회귀는 $\ell_2$ 정규화를 사용한다.

$\hat{\boldsymbol{\beta}}_{ridge} = \arg\min_{\boldsymbol{\beta}}\left[\lVert\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\rVert^2 + \lambda\lVert\boldsymbol{\beta}\rVert^2\right]$

2.2 해석적 해

$\hat{\boldsymbol{\beta}}_{ridge} = (\mathbf{X}^T\mathbf{X} + \lambda\mathbf{I})^{-1}\mathbf{X}^T\mathbf{y}$

$\lambda\mathbf{I}$ 항이 $\mathbf{X}^T\mathbf{X}$ 의 조건수를 개선하여 다중공선성 문제를 완화한다.

2.3 성질

편향-분산 상충: 편향을 증가시키고 분산을 감소시켜 MSE를 개선한다.
수축(shrinkage): 모든 계수를 영 쪽으로 수축하지만, 정확히 영으로 만들지는 않는다.
다중공선성에 강건: 상관된 변수의 영향을 공유한다.

2.4 베이지안 해석

가우시안 사전 $\boldsymbol{\beta} \sim \mathcal{N}(\mathbf{0}, \tau^2\mathbf{I})$ 하에서의 MAP 추정과 동치이다. $\lambda = \sigma^2/\tau^2$ 이다.

3. LASSO(Least Absolute Shrinkage and Selection Operator)

3.1 정의

LASSO는 $\ell_1$ 정규화를 사용한다.

$\hat{\boldsymbol{\beta}}_{lasso} = \arg\min_{\boldsymbol{\beta}}\left[\lVert\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\rVert^2 + \lambda\lVert\boldsymbol{\beta}\rVert_1\right]$

여기서 $\lVert\boldsymbol{\beta}\rVert_1 = \sum_j\lvert\beta_j\rvert$ 이다.

3.2 성질

희소성(sparsity): 일부 계수를 정확히 영으로 만든다. 이는 자동 변수 선택의 효과가 있다.
해석 가능성: 중요한 변수만 선택되어 모델 해석이 용이하다.
비선형 해: $\ell_1$ 노름이 미분 불가능하므로 해석적 해가 없고, 반복 알고리즘(좌표 하강법, LARS 등)으로 해결한다.

3.3 베이지안 해석

라플라스 사전 $p(\beta_j) \propto \exp(-\lvert\beta_j\rvert/b)$ 하에서의 MAP 추정이다.

4. Elastic Net

능선 회귀와 LASSO를 결합한 정규화이다.

$\hat{\boldsymbol{\beta}}_{EN} = \arg\min_{\boldsymbol{\beta}}\left[\lVert\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\rVert^2 + \lambda_1\lVert\boldsymbol{\beta}\rVert_1 + \lambda_2\lVert\boldsymbol{\beta}\rVert^2\right]$

LASSO의 변수 선택과 능선의 안정성을 결합한다. 상관된 변수 그룹을 함께 선택하는 그룹 효과(grouping effect)를 가진다.

5. 정규화 매개변수 $\lambda$ 의 선택

$\lambda$ 는 교차 검증(cross-validation)으로 결정하는 것이 표준이다.

5.1 k-겹 교차 검증

데이터를 $k$ 개의 부분으로 분할
각 부분을 차례로 검증 세트로 사용하고 나머지로 학습
각 $\lambda$ 값에 대해 평균 검증 오차를 계산
오차를 최소화하는 $\lambda$ 를 선택

5.2 -SE 규칙

교차 검증 오차의 최소값에서 1 표준 오차 이내의 가장 큰 $\lambda$ 를 선택한다. 이는 보다 단순한 모델을 선호하는 보수적 선택이다.

6. 기하학적 해석

정규화 회귀는 제약된 최소화 문제로 해석할 수 있다.

능선: $\lVert\boldsymbol{\beta}\rVert^2 \leq t$ (구)

LASSO: $\lVert\boldsymbol{\beta}\rVert_1 \leq t$ (다이아몬드)

LASSO의 제약 영역이 꼭짓점을 가지므로, 최소 제곱 등고선과의 접점이 축 위에 놓여(계수가 영이 됨) 희소 해가 유도된다.

7. 로봇 공학에서의 정규화 회귀

고차원 파라미터 학습: 신경망이나 고차원 특징 공간에서 정규화 회귀가 과적합을 방지한다.

희소 동역학 모델: 로봇 동역학에서 중요한 항만 선택하는 스파스 회귀(Sparse Identification of Nonlinear Dynamics, SINDy)에 LASSO가 활용된다.

특징 선택: 센서 데이터로부터 유의미한 특징을 선택하는 데 LASSO가 사용된다.

조건이 나쁜 시스템 캘리브레이션: 다중공선성이 있는 캘리브레이션 문제에서 능선 회귀가 수치적 안정성을 제공한다.

8. 참고 문헌

Tibshirani, R. (1996). “Regression Shrinkage and Selection via the Lasso.” Journal of the Royal Statistical Society: Series B, 58(1), 267–288.
Hoerl, A. E., & Kennard, R. W. (1970). “Ridge Regression: Biased Estimation for Nonorthogonal Problems.” Technometrics, 12(1), 55–67.
Zou, H., & Hastie, T. (2005). “Regularization and Variable Selection via the Elastic Net.” Journal of the Royal Statistical Society: Series B, 67(2), 301–320.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning (2nd ed.). Springer.

version: 1.0