23.4 제어 정책의 직접 최적화 (End-to-End Policy Optimization) 23.4제어 정책의 직접 최적화 (End-to-End Policy Optimization) 23.4.1시간 관통 역전파(Backpropagation Through Time, BPTT)를 이용한 제어 23.4.2해석적 그라디언트(Analytic Gradient)와 궤적 최적화(Trajectory Optimization) 23.4.3미분 가능한 모델 예측 제어(Differentiable MPC) 구현 23.4.4카오스(Chaos)와 그라디언트 소실/폭발 문제의 해결 (The Exploding Gradient Problem)