Chapter 55. 인간 피드백 기반 강화 학습(RLHF) 기초 Chapter 55. 인간 피드백 기반 강화 학습(RLHF) 기초 55.1RLHF의 개요와 동기 55.2RLHF의 전체 학습 파이프라인 55.3인간 선호도 데이터의 수집 55.4보상 모델(Reward Model)의 학습 55.5Bradley-Terry 모델과 선호도 모델링 55.6근위 정책 최적화(Proximal Policy Optimization, PPO) 55.7PPO의 클리핑(Clipping) 메커니즘 55.8KL 발산 페널티와 정책 제약 55.9직접 선호도 최적화(Direct Preference Optimization, DPO) 55.10RLHF와 정렬(Alignment)의 관계 55.11보상 해킹(Reward Hacking) 문제 55.12RLHF의 한계와 대안적 접근