8.71 비모수적 검정 방법
1. 비모수적 검정의 동기
모수적 검정(t 검정, ANOVA 등)은 데이터가 특정 분포(주로 정규 분포)를 따른다고 가정한다. 이 가정이 위반되면 검정의 정확도가 저하될 수 있다. 비모수적 검정(non-parametric test)은 특정 분포 가정 없이 데이터의 순위나 부호에 기반하여 가설을 검정한다.
2. 비모수적 검정의 장점과 단점
장점:
- 분포 가정이 필요 없음
- 이상치에 강건함
- 순서 척도(ordinal data)에도 적용 가능
단점:
- 모수적 가정이 성립할 때 모수적 검정보다 검정력이 낮음
- 소표본에서 검정력의 한계
3. 주요 비모수적 검정
3.1 부호 검정(Sign Test)
중앙값의 검정에 가장 단순한 비모수적 방법이다. 관측 X_i와 가설 중앙값 M_0의 차이의 부호만을 사용한다.
H_0: \text{median} = M_0 \quad \text{vs.} \quad H_1: \text{median} \neq M_0
양의 부호의 수가 이항 분포 \text{Bin}(n, 0.5)를 따른다는 사실에 기반한다.
3.2 윌콕슨 부호 순위 검정(Wilcoxon Signed-Rank Test)
대응 표본의 차이에 대한 대칭 분포 가정하에서 중앙값 검정이다. 차이의 절댓값에 순위를 부여하고, 양의 차이에 해당하는 순위의 합을 통계량으로 사용한다.
t 검정의 대응 표본 검정에 대한 비모수적 대안이다.
3.3 윌콕슨-만-휘트니 검정(Wilcoxon-Mann-Whitney Test)
두 독립 그룹의 분포 비교에 사용되는 비모수적 검정으로, 이표본 t 검정의 비모수적 대안이다.
두 그룹의 관측을 결합하여 순위를 매기고, 한 그룹의 순위 합을 통계량으로 사용한다.
U = \sum_{i=1}^{n_1}\sum_{j=1}^{n_2}\mathbb{1}(X_i < Y_j)
H_0(두 분포가 같음)하에서 U의 분포가 알려져 있다.
3.4 크루스칼-월리스 검정(Kruskal-Wallis Test)
k \geq 3개 독립 그룹의 비교에 사용되는 비모수적 ANOVA이다. 전체 데이터에 순위를 매기고, 각 그룹의 순위 합을 계산한다.
H = \frac{12}{N(N+1)}\sum_{i=1}^{k}\frac{R_i^2}{n_i} - 3(N+1)
H_0하에서 H는 근사적으로 \chi^2_{k-1}을 따른다.
3.5 프리드만 검정(Friedman Test)
블록화된 반복 측정 설계에 대한 비모수적 검정이다. 반복 측정 ANOVA의 비모수적 대안이다.
3.6 콜모고로프-스미르노프 검정(Kolmogorov-Smirnov Test)
경험적 CDF와 이론적 CDF(또는 두 경험적 CDF) 사이의 최대 차이를 검정 통계량으로 사용한다.
D_n = \sup_x \lvert F_n(x) - F_0(x) \rvert
적합도 검정: 데이터가 특정 분포를 따르는지 검정.
이표본 검정: 두 표본이 같은 분포에서 왔는지 검정.
3.7 앤더슨-달링 검정(Anderson-Darling Test)
콜모고로프-스미르노프보다 분포의 꼬리에 민감한 적합도 검정이다.
3.8 카이제곱 적합도 검정
범주형 데이터의 관측 빈도와 이론 빈도를 비교한다.
\chi^2 = \sum_{i=1}^{k}\frac{(O_i - E_i)^2}{E_i}
H_0하에서 \chi^2 \sim \chi^2_{k-1}이다.
4. 순열 검정(Permutation Test)
데이터의 순열을 이용하여 귀무 분포를 경험적으로 생성하는 방법이다. 분포 가정 없이 검정이 가능하며, 정확한 p-값을 제공한다. 계산 비용이 높지만 컴퓨터 성능 향상으로 실용적이다.
5. 부트스트랩(Bootstrap)
표본으로부터 반복적으로 리샘플링(복원 추출)하여 통계량의 표집 분포를 경험적으로 추정한다. 가설 검정과 신뢰 구간 구성에 모두 사용된다.
\hat{\theta}^* = \hat{\theta}(\mathbf{X}^*)
여기서 \mathbf{X}^*는 원 표본으로부터의 부트스트랩 표본이다.
6. 로봇 공학에서의 비모수적 검정
소표본 성능 비교: 소수의 실험 데이터만 가용한 경우, 정규 분포 가정이 불확실하므로 비모수적 검정이 안전하다.
이상치 포함 데이터: 센서 데이터에 이상치가 포함된 경우, 비모수적 검정이 강건한 결과를 제공한다.
분포 적합도 검증: 센서 잡음 모델이 가정된 분포를 따르는지 콜모고로프-스미르노프 검정으로 검증한다.
부트스트랩 기반 신뢰 구간: 복잡한 통계량(추정기의 편향, 분산)의 신뢰 구간을 부트스트랩으로 구성한다.
7. 참고 문헌
- Hollander, M., Wolfe, D. A., & Chicken, E. (2013). Nonparametric Statistical Methods (3rd ed.). Wiley.
- Conover, W. J. (1999). Practical Nonparametric Statistics (3rd ed.). Wiley.
- Efron, B., & Tibshirani, R. J. (1994). An Introduction to the Bootstrap. CRC Press.
- Wasserman, L. (2006). All of Nonparametric Statistics. Springer.
version: 1.0