67.9 GRPO의 학습 알고리즘