senn-techsenn-tech
02 · LLM

Corporate LLM Stack

Jede Anfrage an OpenAI oder Azure schickt deine Unternehmensdaten außer Haus — rechtlich heikel und bei sensiblen Dokumenten oft schlicht keine Option. Cloud-KI bedeutet außerdem laufende Kosten pro Token und Abhängigkeit von einem US-Anbieter.

Eigene Sprachmodelle auf eigener Hardware. Keine Daten an externe APIs — Inferenz, RAG und Voice laufen unter deiner Kontrolle, DSGVO-konform.

  • On-Prem-Inferenz auf RTX 5090 mit vLLM, Ollama, llama.cpp
  • RAG über deine Dokumente mit Qdrant & OpenWebUI
  • Voice-Agents fürs Telefon mit Pipecat & Asterisk
  • Automatisierung & Agenten-Workflows, integriert in deine Systeme
vLLMOllamallama.cppQdrantOpenWebUIPipecat
Für wen

Unternehmen mit sensiblen Daten, Compliance-Anforderungen (DSGVO, NIS2) oder hohem KI-Volumen, die KI nutzen wollen, ohne die Kontrolle über ihre Daten abzugeben.

Häufige Fragen

Brauche ich dafür eigene GPUs?
Nicht zwingend — Inferenz kann auf eigener Hardware oder auf dedizierten GPUs in einem EU-Rechenzentrum laufen. Entscheidend ist, dass die Daten unter deiner Kontrolle bleiben.
Ist das wirklich DSGVO-konform?
Ja. Modelle, Inferenz und RAG laufen auf Hardware, die du kontrollierst, innerhalb der EU. Es gehen keine Daten an externe APIs.
Wie gut sind lokale Modelle im Vergleich zu GPT?
Für die meisten Geschäftsfälle — RAG über eigene Dokumente, Klassifikation, Extraktion, Voice — sind aktuelle offene Modelle mehr als ausreichend. Wir wählen das Modell passend zum Anwendungsfall.