Chapter 12. 오프라인 강화학습 (Offline RL): 정적 데이터셋의 가치 Chapter 12. 오프라인 강화학습 (Offline RL): 정적 데이터셋의 가치 12.1온라인 탐색의 한계와 오프라인 RL의 부상 12.2핵심 난제: 분포 변화와 외삽 오차 (Distribution Shift) 12.3정책 제약 및 정규화 기법 (Policy Constraints & Regularization) 12.4보수적 가치 추정과 최신 알고리즘 (Modern Algorithms) 12.5패러다임의 확장: 시퀀스 모델링으로서의 RL (RL as Sequence Modeling) 12.6로봇을 위한 대규모 데이터셋과 벤치마크 12.7오프라인 사전 학습 후 온라인 파인튜닝 (Offline-to-Online)