20.5.2 추측 디코딩(Speculative Decoding): 작은 모델로 큰 모델 가속하기
Home
/
로봇, 자율주행을 위한 Embodied AI & ...
/
Chapter 20. 파운데이션 모델의 경량화와 ...
/
20.5 추론 가속화와 런타임 최적화 (Infer...
/
20.5.2 추측 디코딩(Speculative D...
20.5.2 추측 디코딩(Speculative Decoding): 작은 모델로 큰 모델 가속하기