8.12 누적 분포 함수의 정의와 성질

1. 정의

누적 분포 함수(Cumulative Distribution Function, CDF) F_X(x)는 확률 변수 Xx 이하인 값을 취할 확률이다.

F_X(x) = P(X \leq x), \quad -\infty < x < \infty

CDF는 이산 확률 변수와 연속 확률 변수를 통일적으로 기술하는 가장 일반적인 분포 함수이다.

2. CDF의 기본 성질

  1. 단조 비감소: x_1 \leq x_2 \Rightarrow F_X(x_1) \leq F_X(x_2)
  2. 극한값: \lim_{x \to -\infty}F_X(x) = 0, \lim_{x \to \infty}F_X(x) = 1
  3. 우연속(right-continuous): \lim_{h \to 0^+}F_X(x+h) = F_X(x)
  4. 구간 확률: P(a < X \leq b) = F_X(b) - F_X(a)

3. 이산 확률 변수의 CDF

이산 확률 변수 X의 CDF는 계단 함수(step function)이다.

F_X(x) = \sum_{x_i \leq x} p_X(x_i)

각 가능한 값 x_i에서 높이 p_X(x_i)만큼의 불연속 점프가 발생한다.

4. 연속 확률 변수의 CDF

연속 확률 변수의 CDF는 PDF의 적분이다.

F_X(x) = \int_{-\infty}^{x} f_X(t) \, dt

역으로, CDF가 미분 가능한 점에서 f_X(x) = F_X'(x)이다. 연속 확률 변수의 CDF는 연속 함수이다.

4.1 정규 분포의 CDF

표준 정규 분포의 CDF \Phi(x) = P(Z \leq x), Z \sim \mathcal{N}(0, 1):

\Phi(x) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}\exp\left(-\frac{t^2}{2}\right)dt

\Phi는 해석적 폐쇄형이 존재하지 않으며, 수치 테이블 또는 근사 함수로 평가한다. 일반 정규 분포 X \sim \mathcal{N}(\mu, \sigma^2)의 CDF: F_X(x) = \Phi\left(\frac{x - \mu}{\sigma}\right).

5. CDF의 활용

5.1 분위수(Quantile)

\alpha-분위수 x_\alphaF_X(x_\alpha) = \alpha를 만족하는 값이다. 중앙값(median)은 \alpha = 0.5에 해당한다. 분위수는 확률적 신뢰 구간의 경계를 결정하는 데 사용된다.

5.2 확률 구간

P(\mu - k\sigma \leq X \leq \mu + k\sigma) = F_X(\mu + k\sigma) - F_X(\mu - k\sigma)

정규 분포에서 k = 1이면 약 68.3%, k = 2이면 약 95.4%, k = 3이면 약 99.7%이다.

5.3 역변환 샘플링(Inverse Transform Sampling)

균일 분포 U \sim U(0, 1)으로부터 임의의 분포를 갖는 확률 변수를 생성하는 방법이다.

X = F_X^{-1}(U)

여기서 F_X^{-1}은 CDF의 역함수(일반화된 역함수, 분위수 함수)이다. 이 방법은 입자 필터(particle filter)에서 리샘플링(resampling)에 사용된다.

5.4 검정 통계량

CDF에 기반한 통계 검정으로 콜모고로프-스미르노프(Kolmogorov-Smirnov) 검정이 있다. 경험적 CDF \hat{F}_n(x)와 이론적 CDF F_0(x) 사이의 최대 차이 D_n = \sup_x \lvert\hat{F}_n(x) - F_0(x)\rvert를 검정 통계량으로 사용한다.

6. 다변량 CDF

n차원 확률 벡터 \mathbf{X} = (X_1, \ldots, X_n)의 결합 CDF:

F_{\mathbf{X}}(\mathbf{x}) = P(X_1 \leq x_1, X_2 \leq x_2, \ldots, X_n \leq x_n)

주변 CDF는 해당 변수 이외의 모든 변수를 \infty로 보내어 얻는다.

F_{X_1}(x_1) = F_{\mathbf{X}}(x_1, \infty, \ldots, \infty)

7. 로봇 공학에서의 CDF 활용

안전 확률의 계산: 로봇의 위치 오차가 안전 한계를 초과하지 않을 확률은 CDF로 계산된다.

P(\lVert \mathbf{e} \rVert \leq d_{safe}) = F_{\lVert\mathbf{e}\rVert}(d_{safe})

충돌 확률의 한정: 장애물과의 거리가 안전 마진 이하일 확률의 상한을 CDF에 기반하여 계산한다.

확률적 제약의 정식화: 기회 제약(chance constraint) P(g(\mathbf{x}) \leq 0) \geq 1 - \delta를 CDF의 분위수를 이용하여 결정론적 제약으로 변환한다.

8. 참고 문헌

  • Papoulis, A., & Pillai, S. U. (2002). Probability, Random Variables, and Stochastic Processes (4th ed.). McGraw-Hill.
  • Ross, S. M. (2014). A First Course in Probability (9th ed.). Pearson.
  • Grimmett, G. R., & Stirzaker, D. R. (2001). Probability and Random Processes (3rd ed.). Oxford University Press.

version: 1.0