25.5 제약 조건이 있는 강화학습 (Constrained MDPs & Safe RL)

Home / 로봇, 자율주행을 위한 Embodied AI & ... / Chapter 25. 안전한 제어와 이론적 보증 ... / 25.5 제약 조건이 있는 강화학습 (Constr...

25.5 제약 조건이 있는 강화학습 (Constrained MDPs & Safe RL)

25.5제약 조건이 있는 강화학습 (Constrained MDPs & Safe RL)
25.5.1CMDP(Constrained Markov Decision Process)의 정식화
25.5.2라그랑주 이완(Lagrangian Relaxation)과 원초-쌍대(Primal-Dual) 최적화
25.5.3CPO(Constrained Policy Optimization) 및 신뢰 영역 방법
25.5.4리워드 쉐이핑(Reward Shaping)의 위험성과 대안

Generated by Rust Site Gen