42.37 정책 최적화(Policy Optimization)에서의 KL 발산 제약: TRPO와 PPO

42.37 정책 최적화(Policy Optimization)에서의 KL 발산 제약: TRPO와 PPO