Chapter 64. PPO(Proximal Policy Optimization) 알고리즘

Home / 엔비디아 알파마요(Alpamayo) / Volume 1. 기초 이론 / Part 7. 강화 학습 기초 / Chapter 64. PPO(Proximal Po...

Chapter 64. PPO(Proximal Policy Optimization) 알고리즘

Chapter 64. PPO(Proximal Policy Optimization) 알고리즘
64.1PPO의 개발 배경과 동기
64.2신뢰 영역 정책 최적화(Trust Region Policy Optimization, TRPO)의 개요
64.3정책 비율(Policy Ratio)의 정의
64.4클리핑된 대리 목적 함수(Clipped Surrogate Objective)
64.5클리핑 범위(Clipping Range)의 설정
64.6PPO의 가치 함수 손실
64.7엔트로피 보너스(Entropy Bonus)
64.8PPO의 전체 목적 함수
64.9PPO의 학습 알고리즘
64.10미니배치 업데이트와 에포크(Epoch) 설정
64.11PPO의 하이퍼파라미터 설정 지침
64.12PPO와 다른 정책 경사 알고리즘의 비교

Generated by Rust Site Gen