66.6 보상 신호와 언어 모델 출력의 연결
Home
/
제목: 엔비디아 알파마요(Alpamayo)
/
Volume 1. 기초 이론
/
Part 7. 강화 학습 기초
/
Chapter 66. 강화 학습과 미세 조정의 결합
/
66.6 보상 신호와 언어 모델 출력의 연결
66.6 보상 신호와 언어 모델 출력의 연결