8.73 다중 선형 회귀 분석
1. 다중 선형 회귀의 정의
다중 선형 회귀(Multiple Linear Regression)는 여러 개의 독립 변수 x_1, x_2, \ldots, x_p와 하나의 종속 변수 y 사이의 선형 관계를 모델링한다.
y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_p x_{ip} + \epsilon_i
2. 행렬 형식
관측이 n개 있을 때 행렬 형식으로 표현한다.
\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}
- \mathbf{y} \in \mathbb{R}^n: 반응 벡터
- \mathbf{X} \in \mathbb{R}^{n \times (p+1)}: 설계 행렬(첫 열은 1로 구성, 절편용)
- \boldsymbol{\beta} \in \mathbb{R}^{p+1}: 회귀 계수 벡터
- \boldsymbol{\epsilon} \in \mathbb{R}^n: 오차 벡터, \boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \sigma^2\mathbf{I})
3. 최소 제곱 추정
정규 방정식의 해:
\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}
\mathbf{X}^T\mathbf{X}가 비특이이려면 \mathbf{X}가 완전 열 계수(full column rank)여야 한다. 즉, 설명 변수들이 선형 독립이어야 한다.
4. 추정량의 성질
4.1 불편성과 최적성
가우스-마르코프 정리(Gauss-Markov Theorem): 선형 회귀 모델의 가정(선형성, 비편향 오차, 등분산성, 비상관 오차)하에서 최소 제곱 추정량은 모든 선형 불편 추정량 중 분산이 가장 작다(BLUE, Best Linear Unbiased Estimator).
4.2 분산
\text{Cov}(\hat{\boldsymbol{\beta}}) = \sigma^2(\mathbf{X}^T\mathbf{X})^{-1}
정규성 가정하에서 \hat{\boldsymbol{\beta}} \sim \mathcal{N}(\boldsymbol{\beta}, \sigma^2(\mathbf{X}^T\mathbf{X})^{-1})이다.
4.3 잔차 분산의 추정
\hat{\sigma}^2 = \frac{\text{SSE}}{n - p - 1}
자유도 n - p - 1는 p + 1개 계수 추정에 의한 자유도 손실을 반영한다.
5. 모델 적합도
5.1 결정 계수
R^2 = 1 - \frac{\text{SSE}}{\text{SST}}
R^2은 설명 변수의 수가 증가함에 따라 단조 증가하므로, 모델 복잡도를 반영하지 않는다.
5.2 조정된 결정 계수(Adjusted R^2)
R^2_{adj} = 1 - \frac{\text{SSE}/(n - p - 1)}{\text{SST}/(n - 1)} = 1 - (1 - R^2)\frac{n - 1}{n - p - 1}
설명 변수의 수에 대한 벌점을 포함하므로, 변수 추가에 의한 허구적 적합 향상을 방지한다.
6. 회귀 계수의 추론
6.1 개별 계수의 검정
H_0: \beta_j = 0 (변수 x_j의 효과 없음) vs. H_1: \beta_j \neq 0:
t_j = \frac{\hat{\beta}_j}{\text{SE}(\hat{\beta}_j)} \sim t_{n-p-1}
6.2 F 검정
모델의 전체적 유의성:
H_0: \beta_1 = \beta_2 = \cdots = \beta_p = 0
F = \frac{\text{MSR}}{\text{MSE}} = \frac{\text{SSR}/p}{\text{SSE}/(n - p - 1)} \sim F_{p, n-p-1}
7. 다중공선성(Multicollinearity)
설명 변수들 사이에 강한 선형 관계가 있으면 \mathbf{X}^T\mathbf{X}의 조건수가 커지고 \hat{\boldsymbol{\beta}}의 분산이 급증한다. 이를 다중공선성이라 한다.
7.1 진단
분산 팽창 인자(VIF):
\text{VIF}_j = \frac{1}{1 - R_j^2}
여기서 R_j^2는 x_j를 다른 설명 변수로 회귀한 결정 계수이다. \text{VIF} > 10이면 다중공선성이 심각하다고 간주된다.
7.2 해결
- 상관된 변수 제거
- 주성분 분석(PCA)으로 변수 축소
- 정규화 회귀(Ridge, LASSO)
8. 정규화 회귀
8.1 능선 회귀(Ridge Regression)
\hat{\boldsymbol{\beta}}_{ridge} = \arg\min_{\boldsymbol{\beta}}\left[\lVert\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\rVert^2 + \lambda\lVert\boldsymbol{\beta}\rVert^2\right] = (\mathbf{X}^T\mathbf{X} + \lambda\mathbf{I})^{-1}\mathbf{X}^T\mathbf{y}
\ell_2 정규화로, 다중공선성을 완화하고 편향을 증가시키되 분산을 감소시킨다.
8.2 LASSO
\hat{\boldsymbol{\beta}}_{lasso} = \arg\min_{\boldsymbol{\beta}}\left[\lVert\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\rVert^2 + \lambda\lVert\boldsymbol{\beta}\rVert_1\right]
\ell_1 정규화로, 변수 선택 효과(일부 계수를 정확히 0으로)를 가진다.
9. 로봇 공학에서의 다중 선형 회귀 응용
9.1 동역학 파라미터 식별
로봇 동역학 방정식:
\boldsymbol{\tau} = \mathbf{Y}(\mathbf{q}, \dot{\mathbf{q}}, \ddot{\mathbf{q}})\boldsymbol{\pi}
이 관성 파라미터 \boldsymbol{\pi}에 대해 선형이다. 다중 데이터를 쌓으면 다중 선형 회귀 문제가 된다.
9.2 센서 퓨전의 선형 모델
여러 센서의 측정치로부터 관심 양을 추정하는 문제에서 선형 결합이 회귀로 정식화된다.
10. 참고 문헌
- Draper, N. R., & Smith, H. (1998). Applied Regression Analysis (3rd ed.). Wiley.
- Seber, G. A. F., & Lee, A. J. (2003). Linear Regression Analysis (2nd ed.). Wiley.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning (2nd ed.). Springer.
version: 1.0