8.68 유의 수준과 검정력

1. 유의 수준(Significance Level)

유의 수준 $\alpha$ 는 귀무 가설 $H_0$ 가 참일 때 이를 잘못 기각할 확률의 상한이다. 이는 제1종 오류(Type I error)의 확률이며, 검정의 엄격성을 규정한다.

$\alpha = P(\text{reject } H_0 \vert H_0 \text{ is true})$

유의 수준에 의해 기각역이 결정된다. 양측 $z$ 검정에서:

$\text{기각역}: \lvert z \rvert > z_{\alpha/2}$

$\alpha = 0.05$ 이면 $z_{0.025} = 1.96$ , $\alpha = 0.01$ 이면 $z_{0.005} = 2.576$ 이다.

검정력 $1 - \beta$ 는 대립 가설 $H_1$ 이 참일 때 귀무 가설을 올바르게 기각할 확률이다.

$\text{Power} = P(\text{reject } H_0 \vert H_1 \text{ is true}) = 1 - \beta$

$\beta$ 는 제2종 오류(Type II error)의 확률이다. 검정력은 다음 요소에 의해 결정된다.

효과 크기는 귀무 가설로부터의 편차의 크기를 정규화한 값이다. 평균 검정에서 코헨의 $d$ :

$d = \frac{\mu_1 - \mu_0}{\sigma}$

코헨(Cohen)의 관례: $d = 0.2$ (작은 효과), $d = 0.5$ (중간 효과), $d = 0.8$ (큰 효과).

효과 크기는 통계적 유의성과 실용적 유의성을 구별하는 데 중요하다. 표본이 충분히 크면 작은 효과도 통계적으로 유의하다고 판정될 수 있지만, 실용적 의미가 없을 수 있다.

검정력 분석은 네 가지 양( $n$ , $\alpha$ , 효과 크기, 검정력) 중 세 개가 주어졌을 때 나머지를 계산한다.

원하는 검정력(통상 $0.80$ )을 달성하기 위한 표본 크기를 계산한다.

양측 $z$ 검정에서:

$n = \left(\frac{z_{\alpha/2} + z_\beta}{d}\right)^2$

예: $\alpha = 0.05$ , 검정력 $= 0.80$ , $d = 0.5$ 이면 $n \approx 32$ .

실험 설계 단계에서 필요한 표본 크기를 결정한다. 실험 계획의 핵심 요소이다.

실험 후 관측된 효과 크기와 표본 크기로 검정력을 계산한다. 해석에 주의가 필요하다.

유의 수준 $\alpha$ 를 낮추면 제1종 오류는 감소하지만, 기각역이 좁아져 제2종 오류 $\beta$ 가 증가한다. 반대로 $\alpha$ 를 높이면 $\beta$ 가 감소한다. 이 상충 관계를 적절히 관리하는 것이 검정 설계의 핵심이다.

검정력을 유지하면서 $\alpha$ 를 낮추려면 표본 크기를 증가시켜야 한다.

여러 가설을 동시에 검정할 때, 개별 유의 수준을 그대로 적용하면 적어도 하나의 거짓 기각(false rejection)이 발생할 확률이 급증한다. $k$ 개의 독립 검정에서:

$P(\text{적어도 하나의 false rejection}) = 1 - (1 - \alpha)^k$

각 검정의 유의 수준을 $\alpha/k$ 로 조정하여 가족 단위 오류율(family-wise error rate, FWER)을 $\alpha$ 이하로 유지한다.

벤자미니-호흐버그(Benjamini-Hochberg) 절차에 의해 기각된 가설 중 잘못 기각된 비율을 제어한다. 대규모 다중 검정(유전체학 등)에 적합하다.

캘리브레이션 실험 설계: 파라미터의 특정 수준 변화를 검출하기 위한 캘리브레이션 관측 수의 결정에 검정력 분석이 사용된다.

A/B 테스트: 두 제어 알고리즘의 성능 비교에서 유의미한 차이를 검출하는 데 필요한 실험 반복 수를 결정한다.

필터 일관성 모니터링: NIS 기반 일관성 검정의 유의 수준과 검정력을 설계한다.

Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Lawrence Erlbaum.
Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.
Lehmann, E. L., & Romano, J. P. (2005). Testing Statistical Hypotheses (3rd ed.). Springer.
Wasserman, L. (2004). All of Statistics: A Concise Course in Statistical Inference. Springer.

version: 1.0