devops
Inference Alpha: Maximizando los modelos de frontera en AMD
Fuente:
digitalocean.com 1 min de lectura
Compartir
Estás leyendo un resumen. El contenido completo está en digitalocean.com.
DigitalOcean informa de importantes mejoras en la velocidad de inferencia para los LLM de vanguardia en las GPU AMD MI350X/MI355x mediante optimizaciones de kernel y pila personalizadas asistidas por Wafer. Kimi 2.5 pasó de 22,5 a 255,2 tok/s, DeepSeek V3.2 mejoró el rendimiento individual y concurrente, y 774B GLM-5 alcanzó los 151,1 tok/s con un ITL de 17,8 ms en un nodo de 8 GPU.
Leer el artículo completo en el sitio original
Enlace externo a digitalocean.com