10.1 연속 제어(Continuous Control)와 표본 효율성 (Sample Efficiency)

Home / 로봇, 자율주행을 위한 Embodied AI & ... / Chapter 10. 심층 강화학습(Deep RL... / 10.1 연속 제어(Continuous Contr...

10.1 연속 제어(Continuous Control)와 표본 효율성 (Sample Efficiency)

10.1연속 제어(Continuous Control)와 표본 효율성 (Sample Efficiency)
10.1.1이산 행동 공간(Discrete Action Space)에서 연속 행동 공간으로의 확장
10.1.2On-Policy(PPO, TRPO)와 Off-Policy(DDPG, TD3) 알고리즘의 장단점 비교
10.1.3로봇공학에서의 ‘죽음의 3요소(Deadly Triad)’와 학습 불안정성 해결

Generated by Rust Site Gen