architect
Informe: GKE Inference Gateway ofrece respuestas de IA hasta un 92 % más rápidas.
Fuente:
cloudblog.withgoogle.com 1 min de lectura
Compartir
Estás leyendo un resumen. El contenido completo está en cloudblog.withgoogle.com.
Google Kubernetes Engine Inference Gateway enruta las solicitudes LLM utilizando métricas de modelo en tiempo real y enrutamiento con reconocimiento de caché de prefijos y de modelo para reducir el recálculo del acelerador y la latencia. Una prueba de rendimiento independiente reporta un rendimiento un 15,7 % mayor, un tiempo de entrega del primer token un 92,8 % menor y una latencia entre tokens un 62,6 % menor en comparación con el balanceo de carga round-robin.
Leer el artículo completo en el sitio original
Enlace externo a cloudblog.withgoogle.com
Artículos relacionados
architect
La propuesta del estándar WebMCP para la activación web agencial ya está disponible en Chrome (pruebas de Origin).
1 min read •
architect
Slack elimina SSH en las canalizaciones de EMR y migra más de 700 trabajos a una arquitectura basada en REST.
1 min read •
architect
El giro digital: cómo HSS transformó la contratación con IA proactiva
1 min read •