10.1.2 On-Policy(PPO, TRPO)와 Off-Policy(DDPG, TD3) 알고리즘의 장단점 비교

Home / 로봇, 자율주행을 위한 Embodied AI & ... / Chapter 10. 심층 강화학습(Deep RL... / 10.1 연속 제어(Continuous Contr... / 10.1.2 On-Policy(PPO, TRPO)...

10.1.2 On-Policy(PPO, TRPO)와 Off-Policy(DDPG, TD3) 알고리즘의 장단점 비교

Generated by Rust Site Gen