startup
Meglepetés: A GPT-5.5 legyőzte Claude Fable 5-öt a brutális új Agents’ Last Exam teszten.
Forrás:
venturebeat.com 1 perc olvasás
Megosztás
Összefoglalót olvas. A teljes tartalom itt érhető el: venturebeat.com.
Az UC Berkeley RDI és több mint 300 szakértő elindította az Agents’ Last Exam nevű tesztet, amely 55 iparágban méri fel a hosszú távú professzionális munkafolyamatokat, többnyire determinisztikus osztályozással és szennyeződés-mentesítéssel. A Codex által mért GPT-5.5 vezeti a ranglistát 24,0%-os sikerességi aránnyal, ami azt jelzi, hogy a top modellek továbbra is gyengén teljesítenek, sokuk a legnehezebb szinten 0,0%-ot ér el.
A teljes cikk az eredeti weboldalon
Külső link: venturebeat.com
Kapcsolódó cikkek
startup
Tudósok figyelmeztetnek: egy népszerű ízületi kiegészítő felgyorsíthatja a kognitív hanyatlás kockázatát – itt van, mit kell tudni.
1 min read •
startup
Dél-Korea filmipiacának nehézségei, az AI segítségét keresik.
1 min read •
startup
Források: Charlie Javice, a Frank társaság alapítója, akit 2025 szeptemberében 85 hónapos börtönbüntetésre ítéltek a JPMorgan Chase-től való csalás miatt, Trump elnöktől kérvényezte a kegyelmet (Wall Street Journal).
1 min read •