23.4 제어 정책의 직접 최적화 (End-to-End Policy Optimization)

Home / 로봇, 자율주행을 위한 Embodied AI & ... / Chapter 23. 미분 가능한 물리학과 시뮬레... / 23.4 제어 정책의 직접 최적화 (End-to-...

23.4 제어 정책의 직접 최적화 (End-to-End Policy Optimization)

23.4제어 정책의 직접 최적화 (End-to-End Policy Optimization)
23.4.1시간 관통 역전파(Backpropagation Through Time, BPTT)를 이용한 제어
23.4.2해석적 그라디언트(Analytic Gradient)와 궤적 최적화(Trajectory Optimization)
23.4.3미분 가능한 모델 예측 제어(Differentiable MPC) 구현
23.4.4카오스(Chaos)와 그라디언트 소실/폭발 문제의 해결 (The Exploding Gradient Problem)

Generated by Rust Site Gen