8.98 정보 이득 기반 능동 탐색 전략

1. 능동 탐색의 개요

능동 탐색(active exploration)은 로봇이 환경에 대한 정보를 획득하기 위해 능동적으로 행동을 선택하는 전략이다. 수동적 관측과 달리 로봇이 “어디로 이동할지”, “어떻게 센서를 지향할지“를 결정하며, 정보 이득(information gain)을 기준으로 의사 결정이 수행된다. 이는 SLAM의 탐험, 수색 문제, 센서 배치, 환경 모니터링 등 다양한 로봇 응용에서 핵심적 기능이다.

2. 정보 이득의 정의

정보 이득은 관측 이후 대상 변수에 대한 불확실성의 감소량이다.

\text{IG}(a) = H(\mathbf{X}) - \mathbb{E}_{o \vert a}[H(\mathbf{X} \vert o)]

= I(\mathbf{X}; o \vert a)

행동 a에 의한 예상 관측과 대상 변수 사이의 상호 정보량과 동치이다. 정보 이득이 가장 큰 행동을 선택하는 것이 능동 탐색의 원리이다.

3. 능동 탐색의 일반적 프레임워크

3.1 가용 행동 집합

로봇의 다음 행동 후보 \mathcal{A} = \{a_1, a_2, \ldots, a_K\}. 이동 방향, 센서 지향 각도, 샘플링 위치 등이 포함된다.

3.2 정보 이득 평가

각 후보 행동에 대해 예상 정보 이득을 계산한다.

\text{IG}(a_k) = H(\mathbf{X}_t) - \mathbb{E}[H(\mathbf{X}_t \vert o_k)]

3.3 비용-이득 상충

정보 이득만으로 행동을 결정하면 불필요한 이동이 발생할 수 있다. 실용적으로 이득과 비용의 균형을 고려한다.

a^* = \arg\max_a[\text{IG}(a) - \lambda \cdot \text{cost}(a)]

여기서 \lambda는 가중치이며, 이동 거리나 시간이 비용으로 포함된다.

4. SLAM에서의 능동 탐색

4.1 프론티어 기반 탐험

엘페스 등이 제안한 고전적 방법으로, 관찰된 공간과 미관찰 공간의 경계(frontier)를 식별하고 로봇을 프론티어로 유도한다. 각 프론티어의 정보 이득(미관찰 영역의 크기)과 이동 비용을 평가하여 최적 프론티어를 선택한다.

4.2 정보 이론적 탐험

프론티어 방법의 확장으로, 순수 면적 대신 정보 이론적 지표(지도 엔트로피 감소, 포즈 불확실성 감소)를 사용한다.

지도 엔트로피: 점유 격자 지도의 셀별 엔트로피의 합이다.

H(m) = -\sum_i[p(m_i)\log p(m_i) + (1 - p(m_i))\log(1 - p(m_i))]

예상 엔트로피 감소가 가장 큰 행동을 선택한다.

4.3 액티브 SLAM

로봇 자세와 지도의 불확실성을 모두 최소화하는 경로 계획이다. 관측 이득(지도 개선)과 루프 폐합 이득(자세 보정)의 균형이 핵심이다.

5. 능동 표적 추적

이동 표적의 위치 분포를 추적하는 문제에서, 관측이 가장 정보적인 관찰점을 선택한다. 표적의 예상 위치와 불확실성 분포에 기반하여 센서를 지향한다.

6. 탐색 문제(Search Problem)

숨은 표적의 위치를 탐색하는 문제에서, 믿음 분포의 엔트로피를 감소시키는 관측 위치를 선택한다. 해상 수색, 폐허 수색, 냄새 추적 등에 적용된다.

6.1 베이즈 탐색 이론

표적 위치의 사전 분포가 주어지고, 탐색 노력의 배분을 최적화한다. 게임 이론적 접근과 결합하여 지능적 탐색 전략이 개발되어 있다.

7. 근시안과 장기 계획

7.1 탐욕적(Greedy) 전략

다음 한 단계의 정보 이득만을 최대화한다. 계산이 효율적이지만 장기적 최적성이 보장되지 않는다.

7.2 다단계 계획

여러 단계 앞까지의 정보 이득을 고려한다. 기대 정보 이득의 할인 합계로 정식화된다.

\mathbb{E}\left[\sum_{t=0}^{T}\gamma^t \text{IG}(a_t)\right]

POMDP로 정식화되며, 계산 복잡도가 급증한다. MCTS나 근사 POMDP 해법이 사용된다.

8. 계산 고려

정보 이득의 정확한 계산은 모든 가능한 관측에 대한 기대값 계산을 요구하므로 비용이 크다. 다음의 근사 기법이 사용된다.

몬테카를로 추정: 관측을 샘플링하여 기대 엔트로피 감소를 추정한다.

가우시안 근사: 상태가 가우시안이면 정보 이득이 공분산 비의 로그로 해석적으로 계산된다.

\text{IG} = \frac{1}{2}\log\frac{\det\boldsymbol{\Sigma}_{\text{prior}}}{\det\boldsymbol{\Sigma}_{\text{posterior}}}

레이캐스팅 기반 근사: 거리 센서의 경우 미관측 셀의 수로 근사한다.

9. 로봇 공학에서의 응용 사례

탐험 로봇: 미지 환경의 지도 작성에서 정보 이득 기반 경로 계획.

환경 모니터링: 이동 센서가 가스 농도, 온도 등 공간 장을 추정하기 위한 샘플링 경로 최적화.

물체 인식: 다수의 시점에서 관찰이 필요한 물체 인식에서 관찰 시점 선택.

의료 영상: 로봇 보조 수술에서 조직 상태 추정을 위한 센서 배치.

10. 참고 문헌

  • Stachniss, C., Grisetti, G., & Burgard, W. (2005). “Information Gain-Based Exploration Using Rao-Blackwellized Particle Filters.” Proceedings of Robotics: Science and Systems, 65–72.
  • Bourgault, F., Makarenko, A. A., Williams, S. B., Grocholsky, B., & Durrant-Whyte, H. F. (2002). “Information Based Adaptive Robotic Exploration.” Proceedings of IROS, 540–545.
  • Kreucher, C., Kastella, K., & Hero III, A. O. (2005). “Sensor Management Using an Active Sensing Approach.” Signal Processing, 85(3), 607–624.
  • Thrun, S., Burgard, W., & Fox, D. (2005). Probabilistic Robotics. MIT Press.

version: 1.0