8.68 유의 수준과 검정력

1. 유의 수준(Significance Level)

유의 수준 \alpha는 귀무 가설 H_0가 참일 때 이를 잘못 기각할 확률의 상한이다. 이는 제1종 오류(Type I error)의 확률이며, 검정의 엄격성을 규정한다.

\alpha = P(\text{reject } H_0 \vert H_0 \text{ is true})

1.1 일반적 선택

  • \alpha = 0.05 (5%): 가장 널리 사용되는 기준
  • \alpha = 0.01 (1%): 더 엄격한 기준, 중요한 결정이나 큰 영향이 있는 검정
  • \alpha = 0.001 (0.1%): 매우 엄격, 안전 필수 응용

1.2 임계값

유의 수준에 의해 기각역이 결정된다. 양측 z 검정에서:

\text{기각역}: \lvert z \rvert > z_{\alpha/2}

\alpha = 0.05이면 z_{0.025} = 1.96, \alpha = 0.01이면 z_{0.005} = 2.576이다.

2. 검정력(Power)

검정력 1 - \beta는 대립 가설 H_1이 참일 때 귀무 가설을 올바르게 기각할 확률이다.

\text{Power} = P(\text{reject } H_0 \vert H_1 \text{ is true}) = 1 - \beta

\beta는 제2종 오류(Type II error)의 확률이다. 검정력은 다음 요소에 의해 결정된다.

  1. 표본 크기 n: n이 커지면 검정력이 증가
  2. 효과 크기(effect size): H_0H_1 사이의 차이. 클수록 검정력 증가
  3. 유의 수준 \alpha: \alpha가 커지면 검정력 증가(제1종 오류 증가를 대가)
  4. 모집단 분산: 분산이 작을수록 검정력 증가

3. 효과 크기(Effect Size)

효과 크기는 귀무 가설로부터의 편차의 크기를 정규화한 값이다. 평균 검정에서 코헨의 d:

d = \frac{\mu_1 - \mu_0}{\sigma}

코헨(Cohen)의 관례: d = 0.2 (작은 효과), d = 0.5 (중간 효과), d = 0.8 (큰 효과).

효과 크기는 통계적 유의성과 실용적 유의성을 구별하는 데 중요하다. 표본이 충분히 크면 작은 효과도 통계적으로 유의하다고 판정될 수 있지만, 실용적 의미가 없을 수 있다.

4. 검정력 분석(Power Analysis)

검정력 분석은 네 가지 양(n, \alpha, 효과 크기, 검정력) 중 세 개가 주어졌을 때 나머지를 계산한다.

4.1 표본 크기 결정

원하는 검정력(통상 0.80)을 달성하기 위한 표본 크기를 계산한다.

양측 z 검정에서:

n = \left(\frac{z_{\alpha/2} + z_\beta}{d}\right)^2

: \alpha = 0.05, 검정력 = 0.80, d = 0.5이면 n \approx 32.

4.2 사전 검정력 분석(A Priori)

실험 설계 단계에서 필요한 표본 크기를 결정한다. 실험 계획의 핵심 요소이다.

4.3 사후 검정력 분석(Post Hoc)

실험 후 관측된 효과 크기와 표본 크기로 검정력을 계산한다. 해석에 주의가 필요하다.

5. 제1종 오류와 제2종 오류의 상충

유의 수준 \alpha를 낮추면 제1종 오류는 감소하지만, 기각역이 좁아져 제2종 오류 \beta가 증가한다. 반대로 \alpha를 높이면 \beta가 감소한다. 이 상충 관계를 적절히 관리하는 것이 검정 설계의 핵심이다.

검정력을 유지하면서 \alpha를 낮추려면 표본 크기를 증가시켜야 한다.

6. 다중 검정의 문제

여러 가설을 동시에 검정할 때, 개별 유의 수준을 그대로 적용하면 적어도 하나의 거짓 기각(false rejection)이 발생할 확률이 급증한다. k개의 독립 검정에서:

P(\text{적어도 하나의 false rejection}) = 1 - (1 - \alpha)^k

6.1 본페로니 보정(Bonferroni Correction)

각 검정의 유의 수준을 \alpha/k로 조정하여 가족 단위 오류율(family-wise error rate, FWER)을 \alpha 이하로 유지한다.

6.2 거짓 발견률(False Discovery Rate, FDR)

벤자미니-호흐버그(Benjamini-Hochberg) 절차에 의해 기각된 가설 중 잘못 기각된 비율을 제어한다. 대규모 다중 검정(유전체학 등)에 적합하다.

7. 로봇 공학에서의 검정력 분석

캘리브레이션 실험 설계: 파라미터의 특정 수준 변화를 검출하기 위한 캘리브레이션 관측 수의 결정에 검정력 분석이 사용된다.

A/B 테스트: 두 제어 알고리즘의 성능 비교에서 유의미한 차이를 검출하는 데 필요한 실험 반복 수를 결정한다.

필터 일관성 모니터링: NIS 기반 일관성 검정의 유의 수준과 검정력을 설계한다.

8. 참고 문헌

  • Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Lawrence Erlbaum.
  • Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.
  • Lehmann, E. L., & Romano, J. P. (2005). Testing Statistical Hypotheses (3rd ed.). Springer.
  • Wasserman, L. (2004). All of Statistics: A Concise Course in Statistical Inference. Springer.

version: 1.0