66.5 PPO 기반 미세 조정의 구현