Chapter 65. 보상 모델(Reward Model) 설계

Home / 엔비디아 알파마요(Alpamayo) / Volume 1. 기초 이론 / Part 7. 강화 학습 기초 / Chapter 65. 보상 모델(Reward Mo...

Chapter 65. 보상 모델(Reward Model) 설계

Chapter 65. 보상 모델(Reward Model) 설계
65.1보상 모델의 정의와 역할
65.2보상 공학(Reward Engineering)의 기본 원칙
65.3희소 보상(Sparse Reward)과 밀집 보상(Dense Reward)
65.4인간 선호도 데이터의 수집 방법
65.5비교 기반(Comparison-Based) 보상 모델 학습
65.6보상 모델의 신경망 아키텍처
65.7보상 모델의 학습 목적 함수
65.8보상 모델의 일반화 성능
65.9보상 해킹(Reward Hacking)과 과최적화
65.10보상 모델의 보정(Calibration)
65.11자율주행에서의 보상 함수 설계

Generated by Rust Site Gen