55.9 직접 선호도 최적화(Direct Preference Optimization, DPO)

55.9 직접 선호도 최적화(Direct Preference Optimization, DPO)