8.49 마르코프 성질과 마르코프 체인의 정의

8.49 마르코프 성질과 마르코프 체인의 정의

1. 마르코프 성질(Markov Property)

마르코프 성질은 확률 과정(stochastic process)의 중요한 성질로, “미래는 현재가 주어지면 과거와 조건부 독립“이라는 기억 없음(memoryless) 성질을 의미한다.

확률 과정 \{X_t\}_{t \geq 0}가 마르코프 성질을 만족한다 함은, 임의의 ts > 0에 대해 다음이 성립하는 것이다.

P(X_{t+s} \vert X_t, X_{t-1}, \ldots, X_0) = P(X_{t+s} \vert X_t)

즉, 현재 상태 X_t가 주어지면, 미래 상태 X_{t+s}는 과거 상태들과 조건부 독립이다.

2. 마르코프 체인의 정의

2.1 이산 시간 마르코프 체인

이산 시간 마르코프 체인(Discrete-Time Markov Chain, DTMC)은 다음의 마르코프 성질을 만족하는 이산 시간 확률 과정이다.

P(X_{t+1} = j \vert X_t = i, X_{t-1} = i_{t-1}, \ldots, X_0 = i_0) = P(X_{t+1} = j \vert X_t = i)

상태 공간 S가 유한하거나 가산 무한이면 이산 상태 마르코프 체인이고, 연속이면 연속 상태 마르코프 체인이다.

2.2 연속 시간 마르코프 체인

연속 시간에서 정의되는 마르코프 과정이다. 연속 시간에서의 마르코프 성질:

P(X_t \in A \vert X_s = x, \{X_u : u \leq s\}) = P(X_t \in A \vert X_s = x), \quad s < t

3. 전이 확률(Transition Probability)

3.1 -단계 전이 확률

상태 i에서 상태 j로의 1-단계 전이 확률:

p_{ij} = P(X_{t+1} = j \vert X_t = i)

시간 동질(time-homogeneous) 마르코프 체인에서는 전이 확률이 시간에 무관하다. 이 경우 전이 행렬 \mathbf{P} = [p_{ij}]가 체인을 완전히 기술한다.

3.2 전이 행렬의 성질

  • 비음성: p_{ij} \geq 0
  • 행 합이 1: \sum_j p_{ij} = 1, \forall i (확률 행렬, stochastic matrix)

3.3 n-단계 전이 확률

p_{ij}^{(n)} = P(X_{t+n} = j \vert X_t = i)

채프만-콜모고로프(Chapman-Kolmogorov) 방정식:

p_{ij}^{(n+m)} = \sum_k p_{ik}^{(n)}p_{kj}^{(m)}

행렬 표기로 \mathbf{P}^{(n+m)} = \mathbf{P}^{(n)}\mathbf{P}^{(m)}이므로, n-단계 전이 행렬은 1-단계 행렬의 n제곱이다: \mathbf{P}^{(n)} = \mathbf{P}^n.

4. 상태 분포의 시간 전개

시각 t에서의 상태 분포 벡터 \boldsymbol{\pi}_t = [\pi_t(1), \pi_t(2), \ldots]^T의 시간 전개:

\boldsymbol{\pi}_{t+1}^T = \boldsymbol{\pi}_t^T\mathbf{P}

5. 마르코프 체인의 분류

5.1 접근 가능성과 통신

상태 i로부터 상태 j에 도달 가능(accessible)하다 함은, 어떤 n \geq 0에 대해 p_{ij}^{(n)} > 0인 것이다. 상호 접근 가능한 상태들은 통신(communicate)한다고 한다.

5.2 재귀성과 일시성

재귀(recurrent): 상태 i에서 시작하여 확률 1로 i로 돌아온다.

일시(transient): 상태 i에서 시작하여 i로 돌아오지 않을 양의 확률이 있다.

5.3 주기성

상태 i의 주기는 d(i) = \gcd\{n : p_{ii}^{(n)} > 0\}이다. d(i) = 1이면 비주기(aperiodic), d(i) > 1이면 주기(periodic)이다.

5.4 에르고딕성

비주기이고 양의 재귀(positive recurrent)인 마르코프 체인을 에르고딕(ergodic)이라 한다. 에르고딕 체인은 유일한 정상 분포(stationary distribution)에 수렴한다.

6. 정상 분포

확률 벡터 \boldsymbol{\pi}^*가 정상 분포(stationary distribution)란 다음을 만족하는 것이다.

\boldsymbol{\pi}^{*T}\mathbf{P} = \boldsymbol{\pi}^{*T}

즉, 상태 분포가 \boldsymbol{\pi}^*이면 다음 시각에도 동일한 분포가 유지된다. 에르고딕 체인에서 임의의 초기 분포가 정상 분포로 수렴한다.

\lim_{n \to \infty}\mathbf{P}^n = \mathbf{1}\boldsymbol{\pi}^{*T}

7. 로봇 공학에서의 마르코프 모델

7.1 마르코프 결정 과정(MDP)

마르코프 체인에 행동(action)과 보상(reward)을 추가한 모델로, 로봇의 의사결정 문제의 표준 프레임워크이다.

P(s_{t+1} \vert s_t, a_t, s_{t-1}, a_{t-1}, \ldots) = P(s_{t+1} \vert s_t, a_t)

7.2 숨은 마르코프 모델(HMM)

상태가 직접 관측되지 않고, 상태에 의존하는 관측만을 수집할 수 있는 모델이다. 로봇의 활동 인식, 제스처 분류 등에 사용된다.

7.3 베이즈 필터의 기반

칼만 필터를 포함한 모든 베이즈 필터가 마르코프 가정에 기반한다. 현재 상태가 과거의 모든 정보를 “요약“한다는 가정이 재귀적 갱신을 가능하게 한다.

8. 참고 문헌

  • Papoulis, A., & Pillai, S. U. (2002). Probability, Random Variables, and Stochastic Processes (4th ed.). McGraw-Hill.
  • Ross, S. M. (2014). Introduction to Probability Models (11th ed.). Academic Press.
  • Norris, J. R. (1997). Markov Chains. Cambridge University Press.
  • Thrun, S., Burgard, W., & Fox, D. (2005). Probabilistic Robotics. MIT Press.

version: 1.0