11.4 계획(Planning)과 정책 최적화(Policy Optimization)

Home / 로봇, 자율주행을 위한 Embodied AI & ... / Chapter 11. 세계 모델과 모델 기반 강화... / 11.4 계획(Planning)과 정책 최적화(P...

11.4 계획(Planning)과 정책 최적화(Policy Optimization)

11.4계획(Planning)과 정책 최적화(Policy Optimization)
11.4.1MPC (Model Predictive Control): 학습된 모델을 활용한 실시간 경로 계획 (PETS, POPLIN)
11.4.2Dyna 스타일 알고리즘: 가상 데이터(Rollout)를 통한 모델 프리 에이전트 학습 (MBPO)
11.4.3역전파 가능한 계획: 미분 가능한 모델을 통한 직접적인 정책 그라디언트 전파

Generated by Rust Site Gen