devops
Az inferencia adó: Hogyan szünteti meg az előtag-alapú útvonalválasztás az LLM-ek rejtett költségeit skálában
Forrás:
digitalocean.com 1 perc olvasás
Megosztás
Összefoglalót olvas. A teljes tartalom itt érhető el: digitalocean.com.
A DigitalOcean DigitalOcean Inference Gateway optimalizálja a vLLM modellek előtagú útvonal- és gyorsgyorsítótárázását AMD Instinct MI325X GPU-kon és NVIDIA Hopperen, így a számítási költségeket kérésenként 4-szer vagy annál többre csökkenti. A prefix gyorsítótár kihagyja a redundáns számításokat, így 350 ms előkitöltési munkát takarít meg gyorsítótár után.
A teljes cikk az eredeti weboldalon
Külső link: digitalocean.com