Chapter 61. 마르코프 결정 과정(MDP)

Home / 엔비디아 알파마요(Alpamayo) / Volume 1. 기초 이론 / Part 7. 강화 학습 기초 / Chapter 61. 마르코프 결정 과정(MDP)

Chapter 61. 마르코프 결정 과정(MDP)

Chapter 61. 마르코프 결정 과정(MDP)
61.1강화 학습의 기본 프레임워크
61.2에이전트(Agent)와 환경(Environment)의 상호작용
61.3마르코프 성질(Markov Property)의 정의
61.4상태(State), 행동(Action), 보상(Reward)의 정의
61.5전이 확률(Transition Probability)
61.6보상 함수(Reward Function)
61.7할인 인자(Discount Factor)
61.8정책(Policy)의 정의
61.9결정론적 정책과 확률적 정책
61.10에피소드(Episode)와 궤적(Trajectory)
61.11MDP의 자율주행 문제 형식화

Generated by Rust Site Gen