senn-techsenn-tech
Zurück zum Blog
KI & Entwicklung
KI & Entwicklung2026-06-29· von Mag. (FH) Franz Senn

Eine RTX 5090 statt vier alter GPUs: Vision-Inferenz konsolidiert

Wir betreiben unsere KI-Inferenz selbst — und stoßen dabei auf dieselben Fragen wie jeder, der das tut. Beim Vision-Teil unserer Extraktions-Pipeline lautete die Frage: mehr Karten oder die richtige Karte? Die Antwort war lehrreich.

Die Ausgangslage

  • Vier ältere GPUs trugen den Vision-Teil — die Verarbeitung gescannter PDFs und Bilder — und lieferten trotzdem nur magere Token-Raten.
  • Erster Reflex: mehr Hardware. Der falsche Reflex, wie sich zeigte.

Die eigentliche Ursache

  • Nicht die Rohleistung war das Problem, sondern der Software-Pfad: Der Treiber-Stack erzwang einen ineffizienten Ausführungsmodus (enforce-eager), der die Karten auf rund 16 Token/s ausbremste.
  • Auf der RTX 5090 greifen wieder CUDA-Graphs — das vervielfacht den Durchsatz, ohne dass mehr Karten nötig wären.
  • Eine einzelne Karte spart außerdem den Tensor-Parallel- und PCIe-Aufwand, den vier Karten untereinander erzeugen.
  • FP8 statt aggressiver 4-Bit-Quantisierung hält die Ziffern stabil — entscheidend, wenn aus Belegen Zahlen korrekt extrahiert werden müssen.

Unsere Sicht

Die Lehre ist alt, aber sie wiederholt sich: erst die Ursache messen, dann Hardware kaufen. Eine aktuelle Karte schlägt hier vier ältere — und nebenbei sinken Komplexität, Stromverbrauch und Wartungsaufwand. Konsolidieren ist im Eigenbetrieb oft die bessere Skalierung als Hinzufügen.