Chapter 66. 강화 학습과 미세 조정의 결합

Home / 엔비디아 알파마요(Alpamayo) / Volume 1. 기초 이론 / Part 7. 강화 학습 기초 / Chapter 66. 강화 학습과 미세 조정의 결합

Chapter 66. 강화 학습과 미세 조정의 결합

Chapter 66. 강화 학습과 미세 조정의 결합
66.1강화 학습 기반 미세 조정의 동기
66.2지도 미세 조정 후 강화 학습 적용 파이프라인
66.3보상 모델 기반 정책 최적화
66.4KL 발산 제약과 참조 정책(Reference Policy)
66.5PPO 기반 미세 조정의 구현
66.6보상 신호와 언어 모델 출력의 연결
66.7온라인 강화 학습과 오프라인 강화 학습의 선택
66.8강화 학습 미세 조정의 학습 안정성
66.9직접 선호도 최적화(DPO)와의 비교
66.10강화 학습 미세 조정의 평가 방법
66.11자율주행 모델에서의 강화 학습 미세 조정

Generated by Rust Site Gen