55.4 보상 모델(Reward Model)의 학습