8.72 단순 선형 회귀 분석
1. 단순 선형 회귀의 정의
단순 선형 회귀(Simple Linear Regression)는 하나의 독립 변수(설명 변수) x와 하나의 종속 변수(반응 변수) y 사이의 선형 관계를 모델링하는 통계적 방법이다.
y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \quad i = 1, 2, \ldots, n
여기서 \beta_0는 절편(intercept), \beta_1은 기울기(slope), \epsilon_i는 오차항이다.
2. 회귀 모델의 가정
- 선형성: y와 x의 관계가 선형
- 독립성: 오차 \epsilon_i들이 독립
- 등분산성(Homoscedasticity): \text{Var}(\epsilon_i) = \sigma^2 (상수)
- 정규성: \epsilon_i \sim \mathcal{N}(0, \sigma^2)
3. 최소 제곱 추정(Least Squares Estimation)
관측값과 모델 예측값 사이의 제곱 오차의 합을 최소화하는 추정량이다.
(\hat{\beta}_0, \hat{\beta}_1) = \arg\min_{\beta_0, \beta_1}\sum_{i=1}^{n}(y_i - \beta_0 - \beta_1 x_i)^2
정규 방정식을 풀면 폐쇄형 해를 얻는다.
\hat{\beta}_1 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}}
\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}
여기서 \bar{x}, \bar{y}는 표본 평균이다.
4. 추정량의 성질
정규성 가정하에서:
4.1 불편성
\mathbb{E}[\hat{\beta}_0] = \beta_0, \quad \mathbb{E}[\hat{\beta}_1] = \beta_1
4.2 분산
\text{Var}(\hat{\beta}_1) = \frac{\sigma^2}{S_{xx}}, \quad \text{Var}(\hat{\beta}_0) = \sigma^2\left(\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}}\right)
4.3 분포
\hat{\beta}_j \sim \mathcal{N}(\beta_j, \text{Var}(\hat{\beta}_j)), \quad j = 0, 1
4.4 잔차 분산의 추정
\hat{\sigma}^2 = \frac{\text{SSE}}{n - 2} = \frac{\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}{n - 2}
자유도 n - 2는 두 모수 추정에 의한 자유도 손실을 반영한다.
5. 결정 계수 R^2
회귀 모델이 데이터의 변동을 얼마나 설명하는지를 측정한다.
R^2 = 1 - \frac{\text{SSE}}{\text{SST}} = \frac{\text{SSR}}{\text{SST}}
여기서:
- \text{SST} = \sum(y_i - \bar{y})^2: 총 제곱합
- \text{SSR} = \sum(\hat{y}_i - \bar{y})^2: 회귀 제곱합
- \text{SSE} = \sum(y_i - \hat{y}_i)^2: 오차 제곱합
R^2 \in [0, 1]이며, 1에 가까울수록 회귀 모델의 적합이 좋다. 단순 선형 회귀에서 R^2 = r_{xy}^2(r_{xy}는 피어슨 상관 계수)이다.
6. 회귀 계수의 추론
6.1 신뢰 구간
\hat{\beta}_j \pm t_{n-2, \alpha/2}\cdot\text{SE}(\hat{\beta}_j)
6.2 가설 검정
H_0: \beta_1 = 0 (선형 관계 없음) vs. H_1: \beta_1 \neq 0:
t = \frac{\hat{\beta}_1}{\text{SE}(\hat{\beta}_1)} \sim t_{n-2}
7. 예측
새 입력 x_0에서의 예측값:
\hat{y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0
7.1 예측의 신뢰 구간
평균 응답의 신뢰 구간:
\hat{y}_0 \pm t_{n-2, \alpha/2}\hat{\sigma}\sqrt{\frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}}
개별 관측의 예측 구간은 추가적인 잡음 분산 \hat{\sigma}^2을 포함한다.
\hat{y}_0 \pm t_{n-2, \alpha/2}\hat{\sigma}\sqrt{1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}}
8. 잔차 분석
회귀 모델의 가정 검증을 위해 잔차 e_i = y_i - \hat{y}_i를 분석한다.
- 정규성: Q-Q 플롯, 샤피로-윌크 검정
- 등분산성: 잔차 대 예측값 산점도
- 독립성: 더빈-왓슨 통계량
- 이상치: 표준화 잔차, 쿡 거리
9. 로봇 공학에서의 선형 회귀 응용
9.1 센서 캘리브레이션
실제 물리량과 센서 출력 사이의 선형 관계를 회귀로 추정하여 스케일 팩터와 오프셋을 보정한다.
\text{sensor output} = \text{offset} + \text{scale} \cdot \text{true value}
9.2 관성 파라미터 추정
로봇 동역학 방정식이 관성 파라미터에 선형이므로 선형 회귀로 추정한다(다중 선형 회귀).
9.3 실험 데이터의 경향 분석
제어 이득, 작업 환경 등 독립 변수가 로봇 성능에 미치는 영향을 선형 회귀로 분석한다.
10. 참고 문헌
- Draper, N. R., & Smith, H. (1998). Applied Regression Analysis (3rd ed.). Wiley.
- Seber, G. A. F., & Lee, A. J. (2003). Linear Regression Analysis (2nd ed.). Wiley.
- Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis (5th ed.). Wiley.
version: 1.0