8.58 가우시안 과정의 로봇 모델 학습 응용

8.58 가우시안 과정의 로봇 모델 학습 응용

1. 가우시안 과정의 로봇 공학 적합성

가우시안 과정(GP)은 로봇 모델 학습에 특히 적합한 특성을 갖는다.

  1. 데이터 효율성: 적은 데이터로도 의미 있는 예측을 제공한다.
  2. 불확실성 정량화: 예측 분포가 평균뿐 아니라 분산을 제공하여 신뢰도를 기반으로 한 의사결정이 가능하다.
  3. 비모수적: 모델의 복잡도가 데이터에 따라 적응한다.
  4. 사전 지식 통합: 커널 설계를 통해 도메인 지식을 모델에 주입할 수 있다.

이러한 특성은 실물 로봇에서의 데이터 수집이 비용이 높은 상황에서 특히 가치 있다.

2. 동역학 모델 학습

2.1 순방향 동역학의 GP 모델

미지의 로봇 동역학 \mathbf{x}_{t+1} = f(\mathbf{x}_t, \mathbf{u}_t) + \boldsymbol{\epsilon}_t을 GP로 학습한다. 각 출력 차원에 대해 독립적인 GP를 설정하거나, 다중 출력 GP를 사용한다.

f_d(\mathbf{x}, \mathbf{u}) \sim \mathcal{GP}(0, k_d((\mathbf{x}, \mathbf{u}), (\mathbf{x}', \mathbf{u}')))

학습된 GP 모델은 다음 상태의 평균과 분산을 모두 제공한다.

2.2 잔차 학습(Residual Learning)

물리 기반 명목 모델 \hat{f}_{nom}의 오차를 GP로 학습한다.

\mathbf{x}_{t+1} = \hat{f}_{nom}(\mathbf{x}_t, \mathbf{u}_t) + f_{GP}(\mathbf{x}_t, \mathbf{u}_t) + \boldsymbol{\epsilon}_t

명목 모델이 대부분의 동역학을 포착하고, GP는 미모델된 효과(마찰 변화, 외란 등)를 보상한다. 이 접근법은 GP 학습 부담을 줄이고 외삽 능력을 향상시킨다.

3. PILCO: 데이터 효율적 정책 학습

PILCO(Probabilistic Inference for Learning COntrol)는 GP 동역학 모델에 기반한 모델 기반 강화 학습 알고리즘으로, 수 분 이내의 데이터로 제어 정책을 학습한다.

3.1 알고리즘 개요

  1. 모델 학습: 현재까지의 경험으로 GP 동역학 모델을 학습
  2. 정책 평가: 학습된 GP 모델을 이용하여 현재 정책의 기대 누적 비용을 해석적으로 계산(불확실성 전파 포함)
  3. 정책 개선: 경사 기반 방법으로 정책 파라미터를 갱신
  4. 정책 실행: 개선된 정책을 실제 로봇에 적용하여 새 데이터 수집
  5. 수렴까지 반복

핵심 아이디어는 모델 불확실성을 명시적으로 전파하여, 부정확한 모델의 오버피팅을 방지하는 것이다.

4. 가우시안 과정 접촉 지도(GP Occupancy Map)

환경의 점유 상태를 GP로 표현한다. 라이다 관측 데이터로부터 연속 공간에서의 부드러운 점유 확률을 예측한다.

이점: 미관측 영역에 대한 보간과 불확실성 정량화를 제공하며, 이산 격자 지도보다 매끄러운 표현이 가능하다.

5. 운동 프리미티브와 GP

로봇의 시범 데이터로부터 운동 프리미티브(motion primitive)를 GP로 학습한다. 시간 또는 경로 매개변수에 대한 관절 궤적을 GP로 모델링하면, 새 상황에서의 일반화와 불확실성 인지가 가능하다.

5.1 가우시안 과정 정책(GP Policy)

상태로부터 행동으로의 사상을 GP로 표현한 정책이다.

\mathbf{a} \sim \mathcal{GP}(\boldsymbol{\mu}(\mathbf{s}), k_\pi(\mathbf{s}, \mathbf{s}'))

정책의 불확실성이 탐험(exploration)과 활용(exploitation)의 균형을 자연스럽게 조절한다.

6. 베이즈 최적화에 의한 파라미터 튜닝

로봇 제어기 이득, 보행 파라미터 등을 블랙박스 최적화(black-box optimization)로 튜닝할 때, GP를 대리 모델(surrogate model)로 사용한다. 베이즈 최적화는 GP의 예측 평균과 분산을 결합한 획득 함수(acquisition function, 예: Expected Improvement, UCB)를 최대화하여 다음 평가 점을 선택한다.

\mathbf{x}_{\text{next}} = \arg\max_\mathbf{x}\text{EI}(\mathbf{x})

소수의 실험(통상 수십 회)으로 최적 파라미터를 탐색할 수 있으며, 실험 비용이 높은 로봇 응용에 매우 유용하다.

7. 힘 추정과 접촉 감지

외부 접촉력을 관절 토크와 상태로부터 GP로 추정한다. 학습된 GP는 접촉이 있는 상태와 없는 상태를 구별하고, 접촉력의 크기와 방향을 예측한다.

8. 계산적 고려

GP의 O(n^3) 학습 비용은 로봇 온라인 학습에 부담이 된다. 다음의 완화 기법이 사용된다.

희소 GP: 유도 점 방법으로 O(nm^2) 복잡도를 달성한다(m \ll n).

로컬 GP: 입력 공간을 분할하여 각 영역에서 작은 GP를 유지한다.

온라인 GP: 새 데이터가 도착할 때 증분적으로 갱신한다.

9. 참고 문헌

  • Rasmussen, C. E., & Williams, C. K. I. (2006). Gaussian Processes for Machine Learning. MIT Press.
  • Deisenroth, M. P., Fox, D., & Rasmussen, C. E. (2015). “Gaussian Processes for Data-Efficient Learning in Robotics and Control.” IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(2), 408–423.
  • Deisenroth, M. P., & Rasmussen, C. E. (2011). “PILCO: A Model-Based and Data-Efficient Approach to Policy Search.” Proceedings of ICML, 465–472.
  • Shahriari, B., et al. (2016). “Taking the Human Out of the Loop: A Review of Bayesian Optimization.” Proceedings of the IEEE, 104(1), 148–175.

version: 1.0