startup
Sorprendente sorpresa: GPT-5.5 supera a Claude Fable 5 en el nuevo y exigente benchmark Agents’ Last Exam.
Fuente:
venturebeat.com 1 min de lectura
Compartir
Estás leyendo un resumen. El contenido completo está en venturebeat.com.
El equipo de I+D de la UC Berkeley y más de 300 expertos lanzaron Agents’ Last Exam, una prueba comparativa de flujos de trabajo profesionales a largo plazo en 55 sectores, con una calificación mayoritariamente determinista y controles anticontaminación. GPT-5.5, a través de Codex, lidera la clasificación con una tasa de aprobación del 24,0 %, lo que demuestra que los mejores modelos aún presentan un rendimiento deficiente, con muchos obteniendo un 0,0 % en el nivel más difícil.
Leer el artículo completo en el sitio original
Enlace externo a venturebeat.com
Artículos relacionados
startup
Científicos advierten que un suplemento alimenticio popular para las articulaciones podría acelerar el riesgo de deterioro cognitivo: aquí tiene lo que debe saber.
1 min read •
startup
La industria cinematográfica surcoreana, que atraviesa dificultades, recurre a la inteligencia artificial en busca de soluciones.
1 min read •
startup
Según fuentes, Charlie Javice, fundadora de Frank y condenada en septiembre de 2025 a 85 meses de prisión por defraudar a JPMorgan Chase, ha estado buscando un indulto presidencial de Trump (Wall Street Journal).
1 min read •