Hochdurchsatz-LLM-Inferenz mit vLLM auf eigener Hardware
Lokale LLMs sind kein Hype mehr — sie sind Werkzeuge. Aber rohe Inferenz mit Transformers ist langsam. vLLM adressiert genau das.
PagedAttention: Der Schlüssel
Klassische Inferenz speichert den Key-Value-Cache jedes Tokens linear — das führt zu Speicherfragmentierung und Ineffizienz beim Batching. vLLM nutzt PagedAttention: der KV-Cache wird in Blöcken (Pages) verwaltet, wie virtueller Speicher. Das erlaubt Sharing, Wiederverwendung und vor allem kontinuierliches Batching.
Ergebnis: 10 gleichzeitige Requests laufen nicht 10× langsamer, sondern vielleicht 2× — weil Speicher und Rechenzeit dynamisch geteilt werden.
Betrieb auf einer RTX 5090
Die 5090 mit 32 GB VRAM ist unsere Standard-Inferenzkarte. Mit vLLM läuft darauf problemlos ein 70B-Modell mit Q4-Quantisierung oder ein 13B-Modell mit vollen Gewichten. Die OpenAI-kompatible API integriert sich nahtlos in jedes Tool, das openai als Backend erwartet.
python -m vllm.entrypoints.openai.api_server \
--model mistralai/Mixtral-8x22B-Instruct-v0.1 \
--tensor-parallel-size 1 --max-model-len 8192
Dann zeigt jedes Tool, das „OpenAI-kompatibel" kann, einfach auf http://<server>:8000/v1.
Wann vllm, wann llama.cpp?
vLLM glänzt bei hohem Durchsatz, vielen parallelen Requests und Server-Betrieb. Für einzelne Requests, CPU-Offload oder exotische Quantisierungen ist llama.cpp besser. Beide haben ihre Berechtigung — siehe nächster Artikel.
Fazit
Wenn Sie LLMs für mehr als einen einzelnen Nutzer bereitstellen wollen, ist vLLM die erste Wahl. Die Architektur mit PagedAttention spart VRAM und erhöht den Durchsatz messbar.