Chapter 63. 정책 경사 기법(Policy Gradient) Chapter 63. 정책 경사 기법(Policy Gradient) 63.1정책 기반 강화 학습의 동기 63.2매개변수화된 정책(Parameterized Policy) 63.3정책 경사 정리(Policy Gradient Theorem) 63.4REINFORCE 알고리즘 63.5기준선(Baseline)을 이용한 분산 감소 63.6이점 함수(Advantage Function) 63.7일반화된 이점 추정(Generalized Advantage Estimation, GAE) 63.8행위자-비평자(Actor-Critic) 구조 63.9A2C(Advantage Actor-Critic) 알고리즘 63.10정책 경사의 분산과 편향 상충 63.11정책 경사 기법의 수렴 특성