← Zurück zum Blog
KI & Entwicklung
KI & Entwicklung2026-06-29· von Mag. (FH) Franz Senn
Eine RTX 5090 statt vier alter GPUs: Vision-Inferenz konsolidiert
Wir betreiben unsere KI-Inferenz selbst — und stoßen dabei auf dieselben Fragen wie jeder, der das tut. Beim Vision-Teil unserer Extraktions-Pipeline lautete die Frage: mehr Karten oder die richtige Karte? Die Antwort war lehrreich.
Die Ausgangslage
- Vier ältere GPUs trugen den Vision-Teil — die Verarbeitung gescannter PDFs und Bilder — und lieferten trotzdem nur magere Token-Raten.
- Erster Reflex: mehr Hardware. Der falsche Reflex, wie sich zeigte.
Die eigentliche Ursache
- Nicht die Rohleistung war das Problem, sondern der Software-Pfad: Der Treiber-Stack erzwang einen ineffizienten Ausführungsmodus (enforce-eager), der die Karten auf rund 16 Token/s ausbremste.
- Auf der RTX 5090 greifen wieder CUDA-Graphs — das vervielfacht den Durchsatz, ohne dass mehr Karten nötig wären.
- Eine einzelne Karte spart außerdem den Tensor-Parallel- und PCIe-Aufwand, den vier Karten untereinander erzeugen.
- FP8 statt aggressiver 4-Bit-Quantisierung hält die Ziffern stabil — entscheidend, wenn aus Belegen Zahlen korrekt extrahiert werden müssen.
Unsere Sicht
Die Lehre ist alt, aber sie wiederholt sich: erst die Ursache messen, dann Hardware kaufen. Eine aktuelle Karte schlägt hier vier ältere — und nebenbei sinken Komplexität, Stromverbrauch und Wartungsaufwand. Konsolidieren ist im Eigenbetrieb oft die bessere Skalierung als Hinzufügen.