EN / ES / HU
startup

Sorprendente sorpresa: GPT-5.5 supera a Claude Fable 5 en el nuevo y exigente benchmark Agents’ Last Exam.

Fuente: venturebeat.com 1 min de lectura

Compartir

Sorprendente sorpresa: GPT-5.5 supera a Claude Fable 5 en el nuevo y exigente benchmark Agents’ Last Exam.

Estás leyendo un resumen. El contenido completo está en venturebeat.com.

El equipo de I+D de la UC Berkeley y más de 300 expertos lanzaron Agents’ Last Exam, una prueba comparativa de flujos de trabajo profesionales a largo plazo en 55 sectores, con una calificación mayoritariamente determinista y controles anticontaminación. GPT-5.5, a través de Codex, lidera la clasificación con una tasa de aprobación del 24,0 %, lo que demuestra que los mejores modelos aún presentan un rendimiento deficiente, con muchos obteniendo un 0,0 % en el nivel más difícil.

Leer el artículo completo en el sitio original

Enlace externo a venturebeat.com

Artículos relacionados