20.5 추론 가속화와 런타임 최적화 (Inference Acceleration & Runtime Optimization)

Home / 로봇, 자율주행을 위한 Embodied AI & Modern Control / Chapter 20. 파운데이션 모델의 경량화와 엣지 배포 (Efficient Deployment) / 20.5 추론 가속화와 런타임 최적화 (Inference Acceleration & Runtime Optimization)

20.5 추론 가속화와 런타임 최적화 (Inference Acceleration & Runtime Optimization)

  • 20.5 추론 가속화와 런타임 최적화 (Inference Acceleration & Runtime Optimization)
  • 20.5.1 메모리 관리 혁신: PagedAttention과 vLLM
  • 20.5.2 추측 디코딩(Speculative Decoding): 작은 모델로 큰 모델 가속하기
  • 20.5.3 엣지 디바이스를 위한 런타임: TensorRT-LLM, ONNX Runtime, Llama.cpp

Generated by Rust Site Gen