8.73 다중 선형 회귀 분석

1. 다중 선형 회귀의 정의

다중 선형 회귀(Multiple Linear Regression)는 여러 개의 독립 변수 x_1, x_2, \ldots, x_p와 하나의 종속 변수 y 사이의 선형 관계를 모델링한다.

y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_p x_{ip} + \epsilon_i

2. 행렬 형식

관측이 n개 있을 때 행렬 형식으로 표현한다.

\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}

  • \mathbf{y} \in \mathbb{R}^n: 반응 벡터
  • \mathbf{X} \in \mathbb{R}^{n \times (p+1)}: 설계 행렬(첫 열은 1로 구성, 절편용)
  • \boldsymbol{\beta} \in \mathbb{R}^{p+1}: 회귀 계수 벡터
  • \boldsymbol{\epsilon} \in \mathbb{R}^n: 오차 벡터, \boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \sigma^2\mathbf{I})

3. 최소 제곱 추정

정규 방정식의 해:

\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}

\mathbf{X}^T\mathbf{X}가 비특이이려면 \mathbf{X}가 완전 열 계수(full column rank)여야 한다. 즉, 설명 변수들이 선형 독립이어야 한다.

4. 추정량의 성질

4.1 불편성과 최적성

가우스-마르코프 정리(Gauss-Markov Theorem): 선형 회귀 모델의 가정(선형성, 비편향 오차, 등분산성, 비상관 오차)하에서 최소 제곱 추정량은 모든 선형 불편 추정량 중 분산이 가장 작다(BLUE, Best Linear Unbiased Estimator).

4.2 분산

\text{Cov}(\hat{\boldsymbol{\beta}}) = \sigma^2(\mathbf{X}^T\mathbf{X})^{-1}

정규성 가정하에서 \hat{\boldsymbol{\beta}} \sim \mathcal{N}(\boldsymbol{\beta}, \sigma^2(\mathbf{X}^T\mathbf{X})^{-1})이다.

4.3 잔차 분산의 추정

\hat{\sigma}^2 = \frac{\text{SSE}}{n - p - 1}

자유도 n - p - 1p + 1개 계수 추정에 의한 자유도 손실을 반영한다.

5. 모델 적합도

5.1 결정 계수

R^2 = 1 - \frac{\text{SSE}}{\text{SST}}

R^2은 설명 변수의 수가 증가함에 따라 단조 증가하므로, 모델 복잡도를 반영하지 않는다.

5.2 조정된 결정 계수(Adjusted R^2)

R^2_{adj} = 1 - \frac{\text{SSE}/(n - p - 1)}{\text{SST}/(n - 1)} = 1 - (1 - R^2)\frac{n - 1}{n - p - 1}

설명 변수의 수에 대한 벌점을 포함하므로, 변수 추가에 의한 허구적 적합 향상을 방지한다.

6. 회귀 계수의 추론

6.1 개별 계수의 검정

H_0: \beta_j = 0 (변수 x_j의 효과 없음) vs. H_1: \beta_j \neq 0:

t_j = \frac{\hat{\beta}_j}{\text{SE}(\hat{\beta}_j)} \sim t_{n-p-1}

6.2 F 검정

모델의 전체적 유의성:

H_0: \beta_1 = \beta_2 = \cdots = \beta_p = 0

F = \frac{\text{MSR}}{\text{MSE}} = \frac{\text{SSR}/p}{\text{SSE}/(n - p - 1)} \sim F_{p, n-p-1}

7. 다중공선성(Multicollinearity)

설명 변수들 사이에 강한 선형 관계가 있으면 \mathbf{X}^T\mathbf{X}의 조건수가 커지고 \hat{\boldsymbol{\beta}}의 분산이 급증한다. 이를 다중공선성이라 한다.

7.1 진단

분산 팽창 인자(VIF):

\text{VIF}_j = \frac{1}{1 - R_j^2}

여기서 R_j^2x_j를 다른 설명 변수로 회귀한 결정 계수이다. \text{VIF} > 10이면 다중공선성이 심각하다고 간주된다.

7.2 해결

  • 상관된 변수 제거
  • 주성분 분석(PCA)으로 변수 축소
  • 정규화 회귀(Ridge, LASSO)

8. 정규화 회귀

8.1 능선 회귀(Ridge Regression)

\hat{\boldsymbol{\beta}}_{ridge} = \arg\min_{\boldsymbol{\beta}}\left[\lVert\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\rVert^2 + \lambda\lVert\boldsymbol{\beta}\rVert^2\right] = (\mathbf{X}^T\mathbf{X} + \lambda\mathbf{I})^{-1}\mathbf{X}^T\mathbf{y}

\ell_2 정규화로, 다중공선성을 완화하고 편향을 증가시키되 분산을 감소시킨다.

8.2 LASSO

\hat{\boldsymbol{\beta}}_{lasso} = \arg\min_{\boldsymbol{\beta}}\left[\lVert\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\rVert^2 + \lambda\lVert\boldsymbol{\beta}\rVert_1\right]

\ell_1 정규화로, 변수 선택 효과(일부 계수를 정확히 0으로)를 가진다.

9. 로봇 공학에서의 다중 선형 회귀 응용

9.1 동역학 파라미터 식별

로봇 동역학 방정식:

\boldsymbol{\tau} = \mathbf{Y}(\mathbf{q}, \dot{\mathbf{q}}, \ddot{\mathbf{q}})\boldsymbol{\pi}

이 관성 파라미터 \boldsymbol{\pi}에 대해 선형이다. 다중 데이터를 쌓으면 다중 선형 회귀 문제가 된다.

9.2 센서 퓨전의 선형 모델

여러 센서의 측정치로부터 관심 양을 추정하는 문제에서 선형 결합이 회귀로 정식화된다.

10. 참고 문헌

  • Draper, N. R., & Smith, H. (1998). Applied Regression Analysis (3rd ed.). Wiley.
  • Seber, G. A. F., & Lee, A. J. (2003). Linear Regression Analysis (2nd ed.). Wiley.
  • Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning (2nd ed.). Springer.

version: 1.0