42.37 정책 최적화(Policy Optimization)에서의 KL 발산 제약: TRPO와 PPO

Home / 거대 AI 마스터클래스 / Volume 1. 인공지능과 딥러닝의 수학적/구조... / Part 2. 딥러닝을 위한 수학적 기초: 대수학... / Chapter 42. 확률 분포 간의 거리: 쿨백... / 42.37 정책 최적화(Policy Optimiz...

42.37 정책 최적화(Policy Optimization)에서의 KL 발산 제약: TRPO와 PPO

Generated by Rust Site Gen