EN / ES / HU
devops

El impuesto de inferencia: Cómo el enrutamiento consciente de prefijos elimina el coste oculto de los LLM a gran escala

Fuente: digitalocean.com 1 min de lectura

Compartir

El impuesto de inferencia: Cómo el enrutamiento consciente de prefijos elimina el coste oculto de los LLM a gran escala

Estás leyendo un resumen. El contenido completo está en digitalocean.com.

El DigitalOcean Inference Gateway de DigitalOcean optimiza el enrutamiento y caché con prefijo para modelos vLLM en GPUs AMD Instinct MI325X y NVIDIA Hopper, reduciendo los costes de cálculo en 4 veces o más por solicitud. La caché de prefijo evita cálculos redundantes, ahorrando 350 ms de trabajo de prellenado por cada golpe de caché.

Leer el artículo completo en el sitio original

Enlace externo a digitalocean.com

Artículos relacionados