devops
El impuesto de inferencia: Cómo el enrutamiento consciente de prefijos elimina el coste oculto de los LLM a gran escala
Fuente:
digitalocean.com 1 min de lectura
Compartir
Estás leyendo un resumen. El contenido completo está en digitalocean.com.
El DigitalOcean Inference Gateway de DigitalOcean optimiza el enrutamiento y caché con prefijo para modelos vLLM en GPUs AMD Instinct MI325X y NVIDIA Hopper, reduciendo los costes de cálculo en 4 veces o más por solicitud. La caché de prefijo evita cálculos redundantes, ahorrando 350 ms de trabajo de prellenado por cada golpe de caché.
Leer el artículo completo en el sitio original
Enlace externo a digitalocean.com