66.3 보상 모델 기반 정책 최적화

66.3 보상 모델 기반 정책 최적화