20.5 추론 가속화와 런타임 최적화 (Inference Acceleration & Runtime Optimization) 20.5추론 가속화와 런타임 최적화 (Inference Acceleration & Runtime Optimization) 20.5.1메모리 관리 혁신: PagedAttention과 vLLM 20.5.2추측 디코딩(Speculative Decoding): 작은 모델로 큰 모델 가속하기 20.5.3엣지 디바이스를 위한 런타임: TensorRT-LLM, ONNX Runtime, Llama.cpp