EN / ES / HU
architect

Informe: GKE Inference Gateway ofrece respuestas de IA hasta un 92 % más rápidas.

Fuente: cloudblog.withgoogle.com 1 min de lectura

Compartir

Informe: GKE Inference Gateway ofrece respuestas de IA hasta un 92 % más rápidas.

Estás leyendo un resumen. El contenido completo está en cloudblog.withgoogle.com.

Google Kubernetes Engine Inference Gateway enruta las solicitudes LLM utilizando métricas de modelo en tiempo real y enrutamiento con reconocimiento de caché de prefijos y de modelo para reducir el recálculo del acelerador y la latencia. Una prueba de rendimiento independiente reporta un rendimiento un 15,7 % mayor, un tiempo de entrega del primer token un 92,8 % menor y una latencia entre tokens un 62,6 % menor en comparación con el balanceo de carga round-robin.

Leer el artículo completo en el sitio original

Enlace externo a cloudblog.withgoogle.com

Artículos relacionados