8.72 단순 선형 회귀 분석

1. 단순 선형 회귀의 정의

단순 선형 회귀(Simple Linear Regression)는 하나의 독립 변수(설명 변수) x와 하나의 종속 변수(반응 변수) y 사이의 선형 관계를 모델링하는 통계적 방법이다.

y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \quad i = 1, 2, \ldots, n

여기서 \beta_0는 절편(intercept), \beta_1은 기울기(slope), \epsilon_i는 오차항이다.

2. 회귀 모델의 가정

  1. 선형성: yx의 관계가 선형
  2. 독립성: 오차 \epsilon_i들이 독립
  3. 등분산성(Homoscedasticity): \text{Var}(\epsilon_i) = \sigma^2 (상수)
  4. 정규성: \epsilon_i \sim \mathcal{N}(0, \sigma^2)

3. 최소 제곱 추정(Least Squares Estimation)

관측값과 모델 예측값 사이의 제곱 오차의 합을 최소화하는 추정량이다.

(\hat{\beta}_0, \hat{\beta}_1) = \arg\min_{\beta_0, \beta_1}\sum_{i=1}^{n}(y_i - \beta_0 - \beta_1 x_i)^2

정규 방정식을 풀면 폐쇄형 해를 얻는다.

\hat{\beta}_1 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}}

\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}

여기서 \bar{x}, \bar{y}는 표본 평균이다.

4. 추정량의 성질

정규성 가정하에서:

4.1 불편성

\mathbb{E}[\hat{\beta}_0] = \beta_0, \quad \mathbb{E}[\hat{\beta}_1] = \beta_1

4.2 분산

\text{Var}(\hat{\beta}_1) = \frac{\sigma^2}{S_{xx}}, \quad \text{Var}(\hat{\beta}_0) = \sigma^2\left(\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}}\right)

4.3 분포

\hat{\beta}_j \sim \mathcal{N}(\beta_j, \text{Var}(\hat{\beta}_j)), \quad j = 0, 1

4.4 잔차 분산의 추정

\hat{\sigma}^2 = \frac{\text{SSE}}{n - 2} = \frac{\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}{n - 2}

자유도 n - 2는 두 모수 추정에 의한 자유도 손실을 반영한다.

5. 결정 계수 R^2

회귀 모델이 데이터의 변동을 얼마나 설명하는지를 측정한다.

R^2 = 1 - \frac{\text{SSE}}{\text{SST}} = \frac{\text{SSR}}{\text{SST}}

여기서:

  • \text{SST} = \sum(y_i - \bar{y})^2: 총 제곱합
  • \text{SSR} = \sum(\hat{y}_i - \bar{y})^2: 회귀 제곱합
  • \text{SSE} = \sum(y_i - \hat{y}_i)^2: 오차 제곱합

R^2 \in [0, 1]이며, 1에 가까울수록 회귀 모델의 적합이 좋다. 단순 선형 회귀에서 R^2 = r_{xy}^2(r_{xy}는 피어슨 상관 계수)이다.

6. 회귀 계수의 추론

6.1 신뢰 구간

\hat{\beta}_j \pm t_{n-2, \alpha/2}\cdot\text{SE}(\hat{\beta}_j)

6.2 가설 검정

H_0: \beta_1 = 0 (선형 관계 없음) vs. H_1: \beta_1 \neq 0:

t = \frac{\hat{\beta}_1}{\text{SE}(\hat{\beta}_1)} \sim t_{n-2}

7. 예측

새 입력 x_0에서의 예측값:

\hat{y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0

7.1 예측의 신뢰 구간

평균 응답의 신뢰 구간:

\hat{y}_0 \pm t_{n-2, \alpha/2}\hat{\sigma}\sqrt{\frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}}

개별 관측의 예측 구간은 추가적인 잡음 분산 \hat{\sigma}^2을 포함한다.

\hat{y}_0 \pm t_{n-2, \alpha/2}\hat{\sigma}\sqrt{1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}}

8. 잔차 분석

회귀 모델의 가정 검증을 위해 잔차 e_i = y_i - \hat{y}_i를 분석한다.

  • 정규성: Q-Q 플롯, 샤피로-윌크 검정
  • 등분산성: 잔차 대 예측값 산점도
  • 독립성: 더빈-왓슨 통계량
  • 이상치: 표준화 잔차, 쿡 거리

9. 로봇 공학에서의 선형 회귀 응용

9.1 센서 캘리브레이션

실제 물리량과 센서 출력 사이의 선형 관계를 회귀로 추정하여 스케일 팩터와 오프셋을 보정한다.

\text{sensor output} = \text{offset} + \text{scale} \cdot \text{true value}

9.2 관성 파라미터 추정

로봇 동역학 방정식이 관성 파라미터에 선형이므로 선형 회귀로 추정한다(다중 선형 회귀).

9.3 실험 데이터의 경향 분석

제어 이득, 작업 환경 등 독립 변수가 로봇 성능에 미치는 영향을 선형 회귀로 분석한다.

10. 참고 문헌

  • Draper, N. R., & Smith, H. (1998). Applied Regression Analysis (3rd ed.). Wiley.
  • Seber, G. A. F., & Lee, A. J. (2003). Linear Regression Analysis (2nd ed.). Wiley.
  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis (5th ed.). Wiley.

version: 1.0