8.71 비모수적 검정 방법

1. 비모수적 검정의 동기

모수적 검정(t 검정, ANOVA 등)은 데이터가 특정 분포(주로 정규 분포)를 따른다고 가정한다. 이 가정이 위반되면 검정의 정확도가 저하될 수 있다. 비모수적 검정(non-parametric test)은 특정 분포 가정 없이 데이터의 순위나 부호에 기반하여 가설을 검정한다.

2. 비모수적 검정의 장점과 단점

장점:

분포 가정이 필요 없음
이상치에 강건함
순서 척도(ordinal data)에도 적용 가능

단점:

모수적 가정이 성립할 때 모수적 검정보다 검정력이 낮음
소표본에서 검정력의 한계

3. 주요 비모수적 검정

3.1 부호 검정(Sign Test)

중앙값의 검정에 가장 단순한 비모수적 방법이다. 관측 $X_i$ 와 가설 중앙값 $M_0$ 의 차이의 부호만을 사용한다.

$H_0: \text{median} = M_0 \quad \text{vs.} \quad H_1: \text{median} \neq M_0$

양의 부호의 수가 이항 분포 $\text{Bin}(n, 0.5)$ 를 따른다는 사실에 기반한다.

3.2 윌콕슨 부호 순위 검정(Wilcoxon Signed-Rank Test)

대응 표본의 차이에 대한 대칭 분포 가정하에서 중앙값 검정이다. 차이의 절댓값에 순위를 부여하고, 양의 차이에 해당하는 순위의 합을 통계량으로 사용한다.

t 검정의 대응 표본 검정에 대한 비모수적 대안이다.

3.3 윌콕슨-만-휘트니 검정(Wilcoxon-Mann-Whitney Test)

두 독립 그룹의 분포 비교에 사용되는 비모수적 검정으로, 이표본 t 검정의 비모수적 대안이다.

두 그룹의 관측을 결합하여 순위를 매기고, 한 그룹의 순위 합을 통계량으로 사용한다.

$U = \sum_{i=1}^{n_1}\sum_{j=1}^{n_2}\mathbb{1}(X_i < Y_j)$

$H_0$ (두 분포가 같음)하에서 $U$ 의 분포가 알려져 있다.

3.4 크루스칼-월리스 검정(Kruskal-Wallis Test)

$k \geq 3$ 개 독립 그룹의 비교에 사용되는 비모수적 ANOVA이다. 전체 데이터에 순위를 매기고, 각 그룹의 순위 합을 계산한다.

$H = \frac{12}{N(N+1)}\sum_{i=1}^{k}\frac{R_i^2}{n_i} - 3(N+1)$

$H_0$ 하에서 $H$ 는 근사적으로 $\chi^2_{k-1}$ 을 따른다.

3.5 프리드만 검정(Friedman Test)

블록화된 반복 측정 설계에 대한 비모수적 검정이다. 반복 측정 ANOVA의 비모수적 대안이다.

3.6 콜모고로프-스미르노프 검정(Kolmogorov-Smirnov Test)

경험적 CDF와 이론적 CDF(또는 두 경험적 CDF) 사이의 최대 차이를 검정 통계량으로 사용한다.

$D_n = \sup_x \lvert F_n(x) - F_0(x) \rvert$

적합도 검정: 데이터가 특정 분포를 따르는지 검정.
이표본 검정: 두 표본이 같은 분포에서 왔는지 검정.

3.7 앤더슨-달링 검정(Anderson-Darling Test)

콜모고로프-스미르노프보다 분포의 꼬리에 민감한 적합도 검정이다.

3.8 카이제곱 적합도 검정

범주형 데이터의 관측 빈도와 이론 빈도를 비교한다.

$\chi^2 = \sum_{i=1}^{k}\frac{(O_i - E_i)^2}{E_i}$

$H_0$ 하에서 $\chi^2 \sim \chi^2_{k-1}$ 이다.

4. 순열 검정(Permutation Test)

데이터의 순열을 이용하여 귀무 분포를 경험적으로 생성하는 방법이다. 분포 가정 없이 검정이 가능하며, 정확한 p-값을 제공한다. 계산 비용이 높지만 컴퓨터 성능 향상으로 실용적이다.

5. 부트스트랩(Bootstrap)

표본으로부터 반복적으로 리샘플링(복원 추출)하여 통계량의 표집 분포를 경험적으로 추정한다. 가설 검정과 신뢰 구간 구성에 모두 사용된다.

$\hat{\theta}^* = \hat{\theta}(\mathbf{X}^*)$

여기서 $\mathbf{X}^*$ 는 원 표본으로부터의 부트스트랩 표본이다.

6. 로봇 공학에서의 비모수적 검정

소표본 성능 비교: 소수의 실험 데이터만 가용한 경우, 정규 분포 가정이 불확실하므로 비모수적 검정이 안전하다.

이상치 포함 데이터: 센서 데이터에 이상치가 포함된 경우, 비모수적 검정이 강건한 결과를 제공한다.

분포 적합도 검증: 센서 잡음 모델이 가정된 분포를 따르는지 콜모고로프-스미르노프 검정으로 검증한다.

부트스트랩 기반 신뢰 구간: 복잡한 통계량(추정기의 편향, 분산)의 신뢰 구간을 부트스트랩으로 구성한다.

7. 참고 문헌

Hollander, M., Wolfe, D. A., & Chicken, E. (2013). Nonparametric Statistical Methods (3rd ed.). Wiley.
Conover, W. J. (1999). Practical Nonparametric Statistics (3rd ed.). Wiley.
Efron, B., & Tibshirani, R. J. (1994). An Introduction to the Bootstrap. CRC Press.
Wasserman, L. (2006). All of Nonparametric Statistics. Springer.

version: 1.0