Chapter 67. GRPO(Group Relative Policy Optimization)

Home / 엔비디아 알파마요(Alpamayo) / Volume 1. 기초 이론 / Part 7. 강화 학습 기초 / Chapter 67. GRPO(Group Rela...

Chapter 67. GRPO(Group Relative Policy Optimization)

Chapter 67. GRPO(Group Relative Policy Optimization)
67.1GRPO의 개발 배경과 동기
67.2PPO 기반 강화 학습의 한계
67.3비평자(Critic) 모델 제거의 이점
67.4그룹 샘플링(Group Sampling) 전략
67.5그룹 내 상대적 보상 정규화
67.6GRPO의 목적 함수 정의
67.7GRPO의 이점 추정 방법
67.8KL 발산 정규화 항의 적용
67.9GRPO의 학습 알고리즘
67.10PPO와 GRPO의 비교 분석
67.11GRPO의 메모리 효율성과 확장성

Generated by Rust Site Gen