11.4 계획(Planning)과 정책 최적화(Policy Optimization)

Home / 로봇, 자율주행을 위한 Embodied AI & Modern Control / Chapter 11. 세계 모델과 모델 기반 강화학습 (World Models & Model-Based RL) / 11.4 계획(Planning)과 정책 최적화(Policy Optimization)

11.4 계획(Planning)과 정책 최적화(Policy Optimization)

  • 11.4 계획(Planning)과 정책 최적화(Policy Optimization)
  • 11.4.1 MPC (Model Predictive Control): 학습된 모델을 활용한 실시간 경로 계획 (PETS, POPLIN)
  • 11.4.2 Dyna 스타일 알고리즘: 가상 데이터(Rollout)를 통한 모델 프리 에이전트 학습 (MBPO)
  • 11.4.3 역전파 가능한 계획: 미분 가능한 모델을 통한 직접적인 정책 그라디언트 전파

Generated by Rust Site Gen