8.73 다중 선형 회귀 분석

1. 다중 선형 회귀의 정의

다중 선형 회귀(Multiple Linear Regression)는 여러 개의 독립 변수 $x_1, x_2, \ldots, x_p$ 와 하나의 종속 변수 $y$ 사이의 선형 관계를 모델링한다.

$y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_p x_{ip} + \epsilon_i$

2. 행렬 형식

관측이 $n$ 개 있을 때 행렬 형식으로 표현한다.

$\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}$

$\mathbf{y} \in \mathbb{R}^n$ : 반응 벡터
$\mathbf{X} \in \mathbb{R}^{n \times (p+1)}$ : 설계 행렬(첫 열은 1로 구성, 절편용)
$\boldsymbol{\beta} \in \mathbb{R}^{p+1}$ : 회귀 계수 벡터
$\boldsymbol{\epsilon} \in \mathbb{R}^n$ : 오차 벡터, $\boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \sigma^2\mathbf{I})$

3. 최소 제곱 추정

정규 방정식의 해:

$\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}$

$\mathbf{X}^T\mathbf{X}$ 가 비특이이려면 $\mathbf{X}$ 가 완전 열 계수(full column rank)여야 한다. 즉, 설명 변수들이 선형 독립이어야 한다.

4. 추정량의 성질

4.1 불편성과 최적성

가우스-마르코프 정리(Gauss-Markov Theorem): 선형 회귀 모델의 가정(선형성, 비편향 오차, 등분산성, 비상관 오차)하에서 최소 제곱 추정량은 모든 선형 불편 추정량 중 분산이 가장 작다(BLUE, Best Linear Unbiased Estimator).

4.2 분산

$\text{Cov}(\hat{\boldsymbol{\beta}}) = \sigma^2(\mathbf{X}^T\mathbf{X})^{-1}$

정규성 가정하에서 $\hat{\boldsymbol{\beta}} \sim \mathcal{N}(\boldsymbol{\beta}, \sigma^2(\mathbf{X}^T\mathbf{X})^{-1})$ 이다.

4.3 잔차 분산의 추정

$\hat{\sigma}^2 = \frac{\text{SSE}}{n - p - 1}$

자유도 $n - p - 1$ 는 $p + 1$ 개 계수 추정에 의한 자유도 손실을 반영한다.

5. 모델 적합도

5.1 결정 계수

$R^2 = 1 - \frac{\text{SSE}}{\text{SST}}$

$R^2$ 은 설명 변수의 수가 증가함에 따라 단조 증가하므로, 모델 복잡도를 반영하지 않는다.

5.2 조정된 결정 계수(Adjusted $R^2$ )

$R^2_{adj} = 1 - \frac{\text{SSE}/(n - p - 1)}{\text{SST}/(n - 1)} = 1 - (1 - R^2)\frac{n - 1}{n - p - 1}$

설명 변수의 수에 대한 벌점을 포함하므로, 변수 추가에 의한 허구적 적합 향상을 방지한다.

6. 회귀 계수의 추론

6.1 개별 계수의 검정

$H_0: \beta_j = 0$ (변수 $x_j$ 의 효과 없음) vs. $H_1: \beta_j \neq 0$ :

$t_j = \frac{\hat{\beta}_j}{\text{SE}(\hat{\beta}_j)} \sim t_{n-p-1}$

6.2 F 검정

모델의 전체적 유의성:

$H_0: \beta_1 = \beta_2 = \cdots = \beta_p = 0$

$F = \frac{\text{MSR}}{\text{MSE}} = \frac{\text{SSR}/p}{\text{SSE}/(n - p - 1)} \sim F_{p, n-p-1}$

7. 다중공선성(Multicollinearity)

설명 변수들 사이에 강한 선형 관계가 있으면 $\mathbf{X}^T\mathbf{X}$ 의 조건수가 커지고 $\hat{\boldsymbol{\beta}}$ 의 분산이 급증한다. 이를 다중공선성이라 한다.

7.1 진단

분산 팽창 인자(VIF):

$\text{VIF}_j = \frac{1}{1 - R_j^2}$

여기서 $R_j^2$ 는 $x_j$ 를 다른 설명 변수로 회귀한 결정 계수이다. $\text{VIF} > 10$ 이면 다중공선성이 심각하다고 간주된다.

7.2 해결

상관된 변수 제거
주성분 분석(PCA)으로 변수 축소
정규화 회귀(Ridge, LASSO)

8. 정규화 회귀

8.1 능선 회귀(Ridge Regression)

$\hat{\boldsymbol{\beta}}_{ridge} = \arg\min_{\boldsymbol{\beta}}\left[\lVert\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\rVert^2 + \lambda\lVert\boldsymbol{\beta}\rVert^2\right] = (\mathbf{X}^T\mathbf{X} + \lambda\mathbf{I})^{-1}\mathbf{X}^T\mathbf{y}$

$\ell_2$ 정규화로, 다중공선성을 완화하고 편향을 증가시키되 분산을 감소시킨다.

8.2 LASSO

$\hat{\boldsymbol{\beta}}_{lasso} = \arg\min_{\boldsymbol{\beta}}\left[\lVert\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\rVert^2 + \lambda\lVert\boldsymbol{\beta}\rVert_1\right]$

$\ell_1$ 정규화로, 변수 선택 효과(일부 계수를 정확히 0으로)를 가진다.

9. 로봇 공학에서의 다중 선형 회귀 응용

9.1 동역학 파라미터 식별

로봇 동역학 방정식:

$\boldsymbol{\tau} = \mathbf{Y}(\mathbf{q}, \dot{\mathbf{q}}, \ddot{\mathbf{q}})\boldsymbol{\pi}$

이 관성 파라미터 $\boldsymbol{\pi}$ 에 대해 선형이다. 다중 데이터를 쌓으면 다중 선형 회귀 문제가 된다.

9.2 센서 퓨전의 선형 모델

여러 센서의 측정치로부터 관심 양을 추정하는 문제에서 선형 결합이 회귀로 정식화된다.

10. 참고 문헌

Draper, N. R., & Smith, H. (1998). Applied Regression Analysis (3rd ed.). Wiley.
Seber, G. A. F., & Lee, A. J. (2003). Linear Regression Analysis (2nd ed.). Wiley.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning (2nd ed.). Springer.

version: 1.0