Chapter 68. 오프라인 강화 학습(Offline RL) 기초 Chapter 68. 오프라인 강화 학습(Offline RL) 기초 68.1오프라인 강화 학습의 정의와 동기 68.2온라인 강화 학습과 오프라인 강화 학습의 비교 68.3배치 데이터(Batch Data)를 이용한 정책 학습 68.4분포 이탈(Distribution Shift) 문제 68.5외삽 오류(Extrapolation Error) 68.6보수적 Q-학습(Conservative Q-Learning, CQL) 68.7행동 정규화(Behavior Regularization) 기법 68.8결정 트랜스포머(Decision Transformer) 68.9오프라인 데이터의 품질과 정책 성능의 관계 68.10오프라인 강화 학습의 평가 프로토콜 68.11자율주행에서의 오프라인 강화 학습 적용