EN / ES / HU
devops

Az inferencia adó: Hogyan szünteti meg az előtag-alapú útvonalválasztás az LLM-ek rejtett költségeit skálában

Forrás: digitalocean.com 1 perc olvasás

Megosztás

Az inferencia adó: Hogyan szünteti meg az előtag-alapú útvonalválasztás az LLM-ek rejtett költségeit skálában

Összefoglalót olvas. A teljes tartalom itt érhető el: digitalocean.com.

A DigitalOcean DigitalOcean Inference Gateway optimalizálja a vLLM modellek előtagú útvonal- és gyorsgyorsítótárázását AMD Instinct MI325X GPU-kon és NVIDIA Hopperen, így a számítási költségeket kérésenként 4-szer vagy annál többre csökkenti. A prefix gyorsítótár kihagyja a redundáns számításokat, így 350 ms előkitöltési munkát takarít meg gyorsítótár után.

A teljes cikk az eredeti weboldalon

Külső link: digitalocean.com

Kapcsolódó cikkek