Chapter 65. 보상 모델(Reward Model) 설계 Chapter 65. 보상 모델(Reward Model) 설계 65.1보상 모델의 정의와 역할 65.2보상 공학(Reward Engineering)의 기본 원칙 65.3희소 보상(Sparse Reward)과 밀집 보상(Dense Reward) 65.4인간 선호도 데이터의 수집 방법 65.5비교 기반(Comparison-Based) 보상 모델 학습 65.6보상 모델의 신경망 아키텍처 65.7보상 모델의 학습 목적 함수 65.8보상 모델의 일반화 성능 65.9보상 해킹(Reward Hacking)과 과최적화 65.10보상 모델의 보정(Calibration) 65.11자율주행에서의 보상 함수 설계