8.75 정규화 회귀(릿지, 라소)
1. 정규화의 필요성
일반 최소 제곱(OLS) 회귀는 다음의 경우 문제가 발생한다.
- 다중공선성: 설명 변수 간 강한 상관이 있으면 \mathbf{X}^T\mathbf{X}의 조건수가 크고 \hat{\boldsymbol{\beta}}의 분산이 급증
- 고차원: 변수 수 p가 관측 수 n에 가깝거나 초과하면 해가 유일하지 않음
- 과적합: 모델 복잡도가 높아 훈련 데이터에 과적합되고 일반화 성능이 저하
정규화(regularization)는 손실 함수에 벌점 항을 추가하여 이러한 문제를 완화한다.
2. 능선 회귀(Ridge Regression)
2.1 정의
능선 회귀는 \ell_2 정규화를 사용한다.
\hat{\boldsymbol{\beta}}_{ridge} = \arg\min_{\boldsymbol{\beta}}\left[\lVert\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\rVert^2 + \lambda\lVert\boldsymbol{\beta}\rVert^2\right]
2.2 해석적 해
\hat{\boldsymbol{\beta}}_{ridge} = (\mathbf{X}^T\mathbf{X} + \lambda\mathbf{I})^{-1}\mathbf{X}^T\mathbf{y}
\lambda\mathbf{I} 항이 \mathbf{X}^T\mathbf{X}의 조건수를 개선하여 다중공선성 문제를 완화한다.
2.3 성질
- 편향-분산 상충: 편향을 증가시키고 분산을 감소시켜 MSE를 개선한다.
- 수축(shrinkage): 모든 계수를 영 쪽으로 수축하지만, 정확히 영으로 만들지는 않는다.
- 다중공선성에 강건: 상관된 변수의 영향을 공유한다.
2.4 베이지안 해석
가우시안 사전 \boldsymbol{\beta} \sim \mathcal{N}(\mathbf{0}, \tau^2\mathbf{I})하에서의 MAP 추정과 동치이다. \lambda = \sigma^2/\tau^2이다.
3. LASSO(Least Absolute Shrinkage and Selection Operator)
3.1 정의
LASSO는 \ell_1 정규화를 사용한다.
\hat{\boldsymbol{\beta}}_{lasso} = \arg\min_{\boldsymbol{\beta}}\left[\lVert\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\rVert^2 + \lambda\lVert\boldsymbol{\beta}\rVert_1\right]
여기서 \lVert\boldsymbol{\beta}\rVert_1 = \sum_j\lvert\beta_j\rvert이다.
3.2 성질
- 희소성(sparsity): 일부 계수를 정확히 영으로 만든다. 이는 자동 변수 선택의 효과가 있다.
- 해석 가능성: 중요한 변수만 선택되어 모델 해석이 용이하다.
- 비선형 해: \ell_1 노름이 미분 불가능하므로 해석적 해가 없고, 반복 알고리즘(좌표 하강법, LARS 등)으로 해결한다.
3.3 베이지안 해석
라플라스 사전 p(\beta_j) \propto \exp(-\lvert\beta_j\rvert/b)하에서의 MAP 추정이다.
4. Elastic Net
능선 회귀와 LASSO를 결합한 정규화이다.
\hat{\boldsymbol{\beta}}_{EN} = \arg\min_{\boldsymbol{\beta}}\left[\lVert\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\rVert^2 + \lambda_1\lVert\boldsymbol{\beta}\rVert_1 + \lambda_2\lVert\boldsymbol{\beta}\rVert^2\right]
LASSO의 변수 선택과 능선의 안정성을 결합한다. 상관된 변수 그룹을 함께 선택하는 그룹 효과(grouping effect)를 가진다.
5. 정규화 매개변수 \lambda의 선택
\lambda는 교차 검증(cross-validation)으로 결정하는 것이 표준이다.
5.1 k-겹 교차 검증
- 데이터를 k개의 부분으로 분할
- 각 부분을 차례로 검증 세트로 사용하고 나머지로 학습
- 각 \lambda 값에 대해 평균 검증 오차를 계산
- 오차를 최소화하는 \lambda를 선택
5.2 -SE 규칙
교차 검증 오차의 최소값에서 1 표준 오차 이내의 가장 큰 \lambda를 선택한다. 이는 보다 단순한 모델을 선호하는 보수적 선택이다.
6. 기하학적 해석
정규화 회귀는 제약된 최소화 문제로 해석할 수 있다.
능선: \lVert\boldsymbol{\beta}\rVert^2 \leq t (구)
LASSO: \lVert\boldsymbol{\beta}\rVert_1 \leq t (다이아몬드)
LASSO의 제약 영역이 꼭짓점을 가지므로, 최소 제곱 등고선과의 접점이 축 위에 놓여(계수가 영이 됨) 희소 해가 유도된다.
7. 로봇 공학에서의 정규화 회귀
고차원 파라미터 학습: 신경망이나 고차원 특징 공간에서 정규화 회귀가 과적합을 방지한다.
희소 동역학 모델: 로봇 동역학에서 중요한 항만 선택하는 스파스 회귀(Sparse Identification of Nonlinear Dynamics, SINDy)에 LASSO가 활용된다.
특징 선택: 센서 데이터로부터 유의미한 특징을 선택하는 데 LASSO가 사용된다.
조건이 나쁜 시스템 캘리브레이션: 다중공선성이 있는 캘리브레이션 문제에서 능선 회귀가 수치적 안정성을 제공한다.
8. 참고 문헌
- Tibshirani, R. (1996). “Regression Shrinkage and Selection via the Lasso.” Journal of the Royal Statistical Society: Series B, 58(1), 267–288.
- Hoerl, A. E., & Kennard, R. W. (1970). “Ridge Regression: Biased Estimation for Nonorthogonal Problems.” Technometrics, 12(1), 55–67.
- Zou, H., & Hastie, T. (2005). “Regularization and Variable Selection via the Elastic Net.” Journal of the Royal Statistical Society: Series B, 67(2), 301–320.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning (2nd ed.). Springer.
version: 1.0