65.7 보상 모델의 학습 목적 함수

65.7 보상 모델의 학습 목적 함수