8.12 누적 분포 함수의 정의와 성질
1. 정의
누적 분포 함수(Cumulative Distribution Function, CDF) F_X(x)는 확률 변수 X가 x 이하인 값을 취할 확률이다.
F_X(x) = P(X \leq x), \quad -\infty < x < \infty
CDF는 이산 확률 변수와 연속 확률 변수를 통일적으로 기술하는 가장 일반적인 분포 함수이다.
2. CDF의 기본 성질
- 단조 비감소: x_1 \leq x_2 \Rightarrow F_X(x_1) \leq F_X(x_2)
- 극한값: \lim_{x \to -\infty}F_X(x) = 0, \lim_{x \to \infty}F_X(x) = 1
- 우연속(right-continuous): \lim_{h \to 0^+}F_X(x+h) = F_X(x)
- 구간 확률: P(a < X \leq b) = F_X(b) - F_X(a)
3. 이산 확률 변수의 CDF
이산 확률 변수 X의 CDF는 계단 함수(step function)이다.
F_X(x) = \sum_{x_i \leq x} p_X(x_i)
각 가능한 값 x_i에서 높이 p_X(x_i)만큼의 불연속 점프가 발생한다.
4. 연속 확률 변수의 CDF
연속 확률 변수의 CDF는 PDF의 적분이다.
F_X(x) = \int_{-\infty}^{x} f_X(t) \, dt
역으로, CDF가 미분 가능한 점에서 f_X(x) = F_X'(x)이다. 연속 확률 변수의 CDF는 연속 함수이다.
4.1 정규 분포의 CDF
표준 정규 분포의 CDF \Phi(x) = P(Z \leq x), Z \sim \mathcal{N}(0, 1):
\Phi(x) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}\exp\left(-\frac{t^2}{2}\right)dt
\Phi는 해석적 폐쇄형이 존재하지 않으며, 수치 테이블 또는 근사 함수로 평가한다. 일반 정규 분포 X \sim \mathcal{N}(\mu, \sigma^2)의 CDF: F_X(x) = \Phi\left(\frac{x - \mu}{\sigma}\right).
5. CDF의 활용
5.1 분위수(Quantile)
\alpha-분위수 x_\alpha는 F_X(x_\alpha) = \alpha를 만족하는 값이다. 중앙값(median)은 \alpha = 0.5에 해당한다. 분위수는 확률적 신뢰 구간의 경계를 결정하는 데 사용된다.
5.2 확률 구간
P(\mu - k\sigma \leq X \leq \mu + k\sigma) = F_X(\mu + k\sigma) - F_X(\mu - k\sigma)
정규 분포에서 k = 1이면 약 68.3%, k = 2이면 약 95.4%, k = 3이면 약 99.7%이다.
5.3 역변환 샘플링(Inverse Transform Sampling)
균일 분포 U \sim U(0, 1)으로부터 임의의 분포를 갖는 확률 변수를 생성하는 방법이다.
X = F_X^{-1}(U)
여기서 F_X^{-1}은 CDF의 역함수(일반화된 역함수, 분위수 함수)이다. 이 방법은 입자 필터(particle filter)에서 리샘플링(resampling)에 사용된다.
5.4 검정 통계량
CDF에 기반한 통계 검정으로 콜모고로프-스미르노프(Kolmogorov-Smirnov) 검정이 있다. 경험적 CDF \hat{F}_n(x)와 이론적 CDF F_0(x) 사이의 최대 차이 D_n = \sup_x \lvert\hat{F}_n(x) - F_0(x)\rvert를 검정 통계량으로 사용한다.
6. 다변량 CDF
n차원 확률 벡터 \mathbf{X} = (X_1, \ldots, X_n)의 결합 CDF:
F_{\mathbf{X}}(\mathbf{x}) = P(X_1 \leq x_1, X_2 \leq x_2, \ldots, X_n \leq x_n)
주변 CDF는 해당 변수 이외의 모든 변수를 \infty로 보내어 얻는다.
F_{X_1}(x_1) = F_{\mathbf{X}}(x_1, \infty, \ldots, \infty)
7. 로봇 공학에서의 CDF 활용
안전 확률의 계산: 로봇의 위치 오차가 안전 한계를 초과하지 않을 확률은 CDF로 계산된다.
P(\lVert \mathbf{e} \rVert \leq d_{safe}) = F_{\lVert\mathbf{e}\rVert}(d_{safe})
충돌 확률의 한정: 장애물과의 거리가 안전 마진 이하일 확률의 상한을 CDF에 기반하여 계산한다.
확률적 제약의 정식화: 기회 제약(chance constraint) P(g(\mathbf{x}) \leq 0) \geq 1 - \delta를 CDF의 분위수를 이용하여 결정론적 제약으로 변환한다.
8. 참고 문헌
- Papoulis, A., & Pillai, S. U. (2002). Probability, Random Variables, and Stochastic Processes (4th ed.). McGraw-Hill.
- Ross, S. M. (2014). A First Course in Probability (9th ed.). Pearson.
- Grimmett, G. R., & Stirzaker, D. R. (2001). Probability and Random Processes (3rd ed.). Oxford University Press.
version: 1.0