architect
Jelentés: A GKE Inference Gateway akár 92%-kal gyorsabb AI-válaszokat biztosít
Forrás:
cloudblog.withgoogle.com 1 perc olvasás
Megosztás
Összefoglalót olvas. A teljes tartalom itt érhető el: cloudblog.withgoogle.com.
A Google Kubernetes Engine Inference Gateway valós idejű modellmetrikák és előtag-gyorsítótár-tudatos, modell-tudatos útválasztás segítségével irányítja az LLM-kérelmeket a gyorsító újraszámításának és a késleltetés csökkentése érdekében. Egy független benchmark 15,7%-kal nagyobb átviteli sebességet, 92,8%-kal rövidebb időt az első tokenig, és 62,6%-kal alacsonyabb tokenek közötti késleltetést jelent a körforgásos terheléselosztáshoz képest.
A teljes cikk az eredeti weboldalon
Külső link: cloudblog.withgoogle.com
Kapcsolódó cikkek
architect
A WebMCP szabványjavaslata az ágentikus webes működtetéshez már elérhető Chrome-ban (eredeti próbaverziók)
1 min read •
architect
A Slack kiküszöböli az SSH-t az EMR-folyamatokban, és több mint 700 feladatot migrál REST-alapú architektúrára
1 min read •
architect
A digitális fordulat: Hogyan alakította át a HSS a toborzást az ügynöki mesterséges intelligencia segítségével
1 min read •