Eine RTX 5090 statt vier alter GPUs: Vision-Inferenz konsolidiert

Wir betreiben unsere KI-Inferenz selbst — und stoßen dabei auf dieselben Fragen wie jeder, der das tut. Beim Vision-Teil unserer Extraktions-Pipeline lautete die Frage: mehr Karten oder die richtige Karte? Die Antwort war lehrreich.

Die Ausgangslage

Vier ältere GPUs trugen den Vision-Teil — die Verarbeitung gescannter PDFs und Bilder — und lieferten trotzdem nur magere Token-Raten.
Erster Reflex: mehr Hardware. Der falsche Reflex, wie sich zeigte.

Die eigentliche Ursache

Nicht die Rohleistung war das Problem, sondern der Software-Pfad: Der Treiber-Stack erzwang einen ineffizienten Ausführungsmodus (enforce-eager), der die Karten auf rund 16 Token/s ausbremste.
Auf der RTX 5090 greifen wieder CUDA-Graphs — das vervielfacht den Durchsatz, ohne dass mehr Karten nötig wären.
Eine einzelne Karte spart außerdem den Tensor-Parallel- und PCIe-Aufwand, den vier Karten untereinander erzeugen.
FP8 statt aggressiver 4-Bit-Quantisierung hält die Ziffern stabil — entscheidend, wenn aus Belegen Zahlen korrekt extrahiert werden müssen.

Unsere Sicht

Die Lehre ist alt, aber sie wiederholt sich: erst die Ursache messen, dann Hardware kaufen. Eine aktuelle Karte schlägt hier vier ältere — und nebenbei sinken Komplexität, Stromverbrauch und Wartungsaufwand. Konsolidieren ist im Eigenbetrieb oft die bessere Skalierung als Hinzufügen.