Chapter 62. 가치 함수와 벨만 방정식

Home / 엔비디아 알파마요(Alpamayo) / Volume 1. 기초 이론 / Part 7. 강화 학습 기초 / Chapter 62. 가치 함수와 벨만 방정식

Chapter 62. 가치 함수와 벨만 방정식

Chapter 62. 가치 함수와 벨만 방정식
62.1누적 보상(Return)의 정의
62.2상태 가치 함수(State Value Function)
62.3행동 가치 함수(Action Value Function)
62.4벨만 기대 방정식(Bellman Expectation Equation)
62.5벨만 최적 방정식(Bellman Optimality Equation)
62.6최적 정책(Optimal Policy)의 존재성
62.7정책 평가(Policy Evaluation)
62.8정책 반복(Policy Iteration)
62.9가치 반복(Value Iteration)
62.10시간차 학습(Temporal Difference Learning)
62.11Q-학습(Q-Learning) 알고리즘
62.12심층 Q-네트워크(Deep Q-Network, DQN)

Generated by Rust Site Gen