Chapter 66. 강화 학습과 미세 조정의 결합 Chapter 66. 강화 학습과 미세 조정의 결합 66.1강화 학습 기반 미세 조정의 동기 66.2지도 미세 조정 후 강화 학습 적용 파이프라인 66.3보상 모델 기반 정책 최적화 66.4KL 발산 제약과 참조 정책(Reference Policy) 66.5PPO 기반 미세 조정의 구현 66.6보상 신호와 언어 모델 출력의 연결 66.7온라인 강화 학습과 오프라인 강화 학습의 선택 66.8강화 학습 미세 조정의 학습 안정성 66.9직접 선호도 최적화(DPO)와의 비교 66.10강화 학습 미세 조정의 평가 방법 66.11자율주행 모델에서의 강화 학습 미세 조정