Chapter 61. 마르코프 결정 과정(MDP) Chapter 61. 마르코프 결정 과정(MDP) 61.1강화 학습의 기본 프레임워크 61.2에이전트(Agent)와 환경(Environment)의 상호작용 61.3마르코프 성질(Markov Property)의 정의 61.4상태(State), 행동(Action), 보상(Reward)의 정의 61.5전이 확률(Transition Probability) 61.6보상 함수(Reward Function) 61.7할인 인자(Discount Factor) 61.8정책(Policy)의 정의 61.9결정론적 정책과 확률적 정책 61.10에피소드(Episode)와 궤적(Trajectory) 61.11MDP의 자율주행 문제 형식화