7.161 강화 학습과 최적화의 결합

1. 강화 학습의 최적화적 관점

강화 학습(Reinforcement Learning, RL)은 에이전트가 환경과의 상호 작용을 통해 누적 보상을 최대화하는 정책을 학습하는 프레임워크이다. 수학적으로 RL은 마르코프 결정 과정(MDP)의 최적 제어 문제에 해당하며, 벨만 방정식에 기반한 동적 계획법과 정책 그래디언트에 기반한 경사 상승법이 핵심 해법이다.

RL과 고전적 최적화의 결합은 양쪽의 강점을 활용하여 로봇 제어의 성능을 향상시키는 방향으로 연구되고 있다.

2. 모델 기반 강화 학습과 궤적 최적화

2.1 학습된 동역학 모델의 활용

모델 기반 RL(Model-Based RL)에서 로봇의 동역학 모델 $\hat{\mathbf{f}}$ 를 데이터로부터 학습하고, 학습된 모델을 궤적 최적화에 사용한다.

실제 로봇에서 상태-행동 데이터 수집
신경망 등으로 동역학 모델 $\hat{\mathbf{f}}$ 학습
학습된 모델에서 MPC 또는 iLQR로 최적 궤적/정책 계산
최적 정책을 실제 로봇에 적용하고 새 데이터 수집
2~4 반복

이 접근법은 모델의 정확도가 제어 성능에 직접 영향을 미치므로, 모델 불확실성의 관리가 핵심이다.

2.2 iLQR/DDP 기반 정책 학습

학습된 모델에서 iLQR(iterative Linear Quadratic Regulator)이나 DDP(Differential Dynamic Programming)를 수행하여 국소 최적 궤적과 피드백 이득을 산출한다. 이를 다수의 초기 상태에서 반복하여 신경망 정책을 지도 학습(supervised learning)으로 증류(distill)하는 방법이 사용된다.

3. 정책 경사법과 최적화 알고리즘

3.1 정책 그래디언트의 분산 감소

정책 그래디언트 $\nabla_\theta J(\theta) = \mathbb{E}[\sum_t \nabla_\theta\log\pi_\theta(\mathbf{a}_t\vert\mathbf{s}_t)\hat{A}_t]$ 는 높은 분산을 가지며, 이를 줄이기 위해 다양한 기법이 적용된다. 일반화 이점 추정(GAE), 기저선 차감, 중요도 샘플링 등이 분산 감소에 기여한다.

3.2 자연 정책 경사(Natural Policy Gradient)

파라미터 공간의 유클리드 거리 대신, 정책 분포의 KL 발산에 기반한 피셔 정보 행렬(Fisher information matrix) $\mathbf{F}$ 를 메트릭으로 사용한다.

$\theta_{k+1} = \theta_k + \alpha\mathbf{F}^{-1}\nabla_\theta J(\theta_k)$

이는 준뉴턴법의 정책 공간 확장으로 해석되며, 매개변수화에 대한 불변성을 제공한다. TRPO(Trust Region Policy Optimization)와 PPO(Proximal Policy Optimization)가 이 아이디어의 실용적 구현이다.

4. 궤적 최적화 유도 정책 학습(GPS)

유도 정책 탐색(Guided Policy Search, GPS)은 궤적 최적화와 정책 학습을 교대로 수행하는 프레임워크이다.

궤적 최적화 단계: 각 초기 조건에서 iLQR/DDP로 국소 최적 궤적을 생성한다.
정책 학습 단계: 생성된 궤적들을 지도 학습 데이터로 사용하여 신경망 정책 $\pi_\theta$ 를 학습한다.
정규화: KL 발산 제약에 의해 궤적 최적화와 정책의 괴리를 제한한다.

GPS는 궤적 최적화의 효율성(샘플 효율적, 정밀)과 신경망 정책의 일반화 능력을 결합한다.

5. MPC와 강화 학습의 결합

5.1 MPC를 교사로 한 모방 학습

정확한 모델에 기반한 MPC를 전문가(expert)로 사용하여, MPC의 행동을 신경망 정책으로 모방한다. 온라인 MPC의 계산 비용을 오프라인 학습으로 전가하여, 실시간에서는 신경망의 전방 통과(forward pass)만으로 MPC 수준의 제어를 달성한다.

5.2 RL에 의한 MPC 비용/모델 학습

MPC의 비용 함수 가중치나 동역학 모델의 파라미터를 RL에 의해 학습하여, 폐루프 성능을 최적화한다. MPC는 구조적 지식(동역학, 제약)을 제공하고, RL은 성능 최적화를 담당하는 역할 분담이다.

6. 시뮬레이션-실물 전이(Sim-to-Real Transfer)

시뮬레이션에서 RL로 정책을 학습한 후 실물 로봇에 전이하는 과정에서, 시뮬레이션과 실물의 동역학 차이(sim-to-real gap)가 성능 저하를 야기한다. 이를 극복하기 위한 전략은 다음과 같다.

도메인 무작위화(Domain Randomization): 시뮬레이션의 물리 파라미터(질량, 마찰, 감쇠 등)를 무작위로 변화시켜 학습하여, 실물의 파라미터가 학습된 분포 내에 놓이도록 한다.

시스템 식별 + RL: 실물 데이터로부터 시뮬레이션 모델의 파라미터를 식별(calibration)하고, 보정된 시뮬레이션에서 RL을 수행한다.

7. 참고 문헌

Levine, S., & Koltun, V. (2013). “Guided Policy Search.” Proceedings of ICML, 1–9.
Schulman, J., et al. (2015). “Trust Region Policy Optimization.” Proceedings of ICML, 1889–1897.
Nagabandi, A., et al. (2018). “Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning.” Proceedings of ICRA, 7559–7566.
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press.
Tobin, J., et al. (2017). “Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World.” Proceedings of IROS, 23–30.

version: 1.0