Chapter 55. 인간 피드백 기반 강화 학습(RLHF) 기초

Home / 엔비디아 알파마요(Alpamayo) / Volume 1. 기초 이론 / Part 6. 대규모 언어 모델 기초 / Chapter 55. 인간 피드백 기반 강화 학습...

Chapter 55. 인간 피드백 기반 강화 학습(RLHF) 기초

Chapter 55. 인간 피드백 기반 강화 학습(RLHF) 기초
55.1RLHF의 개요와 동기
55.2RLHF의 전체 학습 파이프라인
55.3인간 선호도 데이터의 수집
55.4보상 모델(Reward Model)의 학습
55.5Bradley-Terry 모델과 선호도 모델링
55.6근위 정책 최적화(Proximal Policy Optimization, PPO)
55.7PPO의 클리핑(Clipping) 메커니즘
55.8KL 발산 페널티와 정책 제약
55.9직접 선호도 최적화(Direct Preference Optimization, DPO)
55.10RLHF와 정렬(Alignment)의 관계
55.11보상 해킹(Reward Hacking) 문제
55.12RLHF의 한계와 대안적 접근

Generated by Rust Site Gen