Chapter 67. GRPO(Group Relative Policy Optimization) Chapter 67. GRPO(Group Relative Policy Optimization) 67.1GRPO의 개발 배경과 동기 67.2PPO 기반 강화 학습의 한계 67.3비평자(Critic) 모델 제거의 이점 67.4그룹 샘플링(Group Sampling) 전략 67.5그룹 내 상대적 보상 정규화 67.6GRPO의 목적 함수 정의 67.7GRPO의 이점 추정 방법 67.8KL 발산 정규화 항의 적용 67.9GRPO의 학습 알고리즘 67.10PPO와 GRPO의 비교 분석 67.11GRPO의 메모리 효율성과 확장성