8.14 포아송 분포와 희귀 사건 모델링

1. 포아송 분포의 정의

포아송 분포(Poisson distribution)는 주어진 시간 또는 공간 구간에서 독립적으로 발생하는 사건의 횟수를 모델링하는 이산 확률 분포이다.

P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \ldots

여기서 \lambda > 0은 비율 매개변수(rate parameter)로, 단위 구간당 사건의 평균 발생 횟수이다. X \sim \text{Pois}(\lambda)로 표기한다.

2. 기본 통계량

\mathbb{E}[X] = \lambda, \quad \text{Var}(X) = \lambda

평균과 분산이 동일한 것이 포아송 분포의 특징이다. 관측 데이터의 평균과 분산이 유사하면 포아송 분포의 적합성을 시사한다.

적률 생성 함수: M_X(t) = \exp(\lambda(e^t - 1)).

3. 이항 분포에서의 유도

포아송 분포는 이항 분포 \text{Bin}(n, p)에서 n \to \infty, p \to 0, np = \lambda (일정)인 극한으로 유도된다. 이는 희귀 사건(rare event)의 근사에 해당한다. 시행 횟수가 매우 많고 각 시행의 성공 확률이 매우 작지만, 평균 발생 횟수 \lambda = np가 유한할 때 포아송 분포가 적절한 모델이다.

4. 포아송 과정(Poisson Process)

4.1 정의

시간 축에서의 사건 발생이 다음의 조건을 만족하면 비율 \lambda의 포아송 과정이라 한다.

  1. 독립 증분: 겹치지 않는 시간 구간에서의 사건 수가 독립이다.
  2. 정상 증분: 구간 [t, t+s]에서의 사건 수의 분포가 시작 시각 t에 무관하고 구간 길이 s에만 의존한다.
  3. 희소성: 극히 짧은 구간에서 두 개 이상의 사건이 발생할 확률이 0에 수렴한다.

구간 [0, t]에서의 사건 수 N(t) \sim \text{Pois}(\lambda t)이다.

4.2 사건 간 시간

연속적 사건 사이의 시간 간격 T는 지수 분포를 따른다.

f_T(t) = \lambda e^{-\lambda t}, \quad t \geq 0

이는 포아송 과정과 지수 분포의 쌍대성(duality)을 나타낸다.

5. 포아송 분포의 성질

5.1 합의 분포

독립인 포아송 확률 변수의 합도 포아송이다. X_i \sim \text{Pois}(\lambda_i)이 독립이면:

\sum_{i=1}^{n}X_i \sim \text{Pois}\left(\sum_{i=1}^{n}\lambda_i\right)

5.2 분할(Thinning)

포아송 과정의 각 사건이 독립적으로 확률 p로 “유지“되면, 유지된 사건은 비율 \lambda p의 포아송 과정을 형성한다.

5.3 조건부 균일성

[0, T]에서 N(T) = n이 주어지면, n개의 사건 시각은 [0, T]에서의 균일 분포의 순서 통계량과 동일한 분포를 갖는다.

6. 로봇 공학에서의 응용

6.1 센서 고장 모델

센서의 고장이 시간에 따라 포아송 과정으로 발생한다고 가정하면, 시간 [0, T]에서의 고장 횟수가 \text{Pois}(\lambda T)를 따른다. 무고장 확률은 P(N(T) = 0) = e^{-\lambda T}이다.

6.2 특징점 검출

영상의 특정 영역에서 검출되는 특징점의 수가 포아송 분포로 모델링된다. 특징점이 공간적으로 균일하고 독립적으로 분포하면, 단위 면적당 평균 밀도 \lambda에 의해 영역 A 내의 특징점 수가 \text{Pois}(\lambda \cdot \lvert A \rvert)이다.

6.3 통신 패킷 도착

로봇 통신 네트워크에서 패킷의 도착이 포아송 과정으로 모델링된다. 큐잉 이론(queueing theory)에서 M/M/1 큐의 도착 과정이 포아송이다.

6.4 이벤트 기반 센서

이벤트 카메라(event camera)에서 특정 시간 구간의 이벤트 수가 포아송 분포로 근사된다. 이벤트 발생률은 장면의 변화 속도에 비례한다.

7. 과분산(Overdispersion)과 음이항 분포

실제 데이터에서 분산이 평균보다 큰 경우(과분산)가 발생하면, 포아송 분포가 적합하지 않다. 음이항 분포(negative binomial distribution)는 포아송 분포의 비율 매개변수 자체가 감마 분포를 따르는 혼합 모델로, 과분산을 자연스럽게 수용한다.

X \vert \Lambda \sim \text{Pois}(\Lambda), \quad \Lambda \sim \text{Gamma}(r, p/(1-p))

주변 분포 X가 음이항 분포를 따른다.

8. 참고 문헌

  • Papoulis, A., & Pillai, S. U. (2002). Probability, Random Variables, and Stochastic Processes (4th ed.). McGraw-Hill.
  • Ross, S. M. (2014). A First Course in Probability (9th ed.). Pearson.
  • Kingman, J. F. C. (1993). Poisson Processes. Oxford University Press.

version: 1.0