senn-techsenn-tech
Zurück zum Blog
KI & Entwicklung2026-11-17

RAG-Umgebungen im Vergleich: Vektordatenbanken, Chunking, Embeddings

Ein LLM beantwortet Fragen nur so gut wie sein Kontext. RAG — Retrieval-Augmented Generation — gibt ihm genau das: relevante Dokumente, bevor die Antwort formuliert wird. Die Technik ist mächtig, aber voller Fallstricke.

Die RAG-Pipeline

  1. Dokumente laden — PDF, Markdown, HTML, Code
  2. Chunking — Dokumente in sinnvolle Abschnitte teilen
  3. Embedding — Textabschnitte in Vektoren umwandeln
  4. Speichern — Vektoren in einer spezialisierten Datenbank ablegen
  5. Query — bei Nutzerfrage ähnliche Vektoren finden und als Kontext mitgeben

Jeder Schritt beeinflusst, ob die Antwort zutrifft oder halluziniert wird.

Vektordatenbank: Warum Qdrant?

Qdrant ist in Rust geschrieben, spricht gRPC und REST und läuft als einzelnes Binary. Es braucht keinen verteilten Cluster für mittlere Datenbestände und liefert Sub-Millisekunden-Query-Zeiten.

Die Filter-API ist der unterschätzte Vorteil: Sie können zusätzlich zum Vektor-Ähnlichkeits-Ranking nach Metadaten filtern — etwa „nur Dokumente aus 2025" oder „nur von Kunde X". Das macht Retrieval präziser als reine Vektorsuche.

Chunking: Die unterschätzte Stellschraube

Zu grosse Chunks verwässern den Kontext. Zu kleine reissen Sätze auseinander. Die richtige Grösse hängt vom Embedding-Modell ab — typisch sind 512 bis 1024 Tokens mit Überlappung.

from qdrant_client import QdrantClient
client = QdrantClient(host="localhost", port=6333)

Entscheidend ist die Überlappung: ein Satz, der mitten im Chunk anfängt, verliert Kontext. 10–20 % Überlappung sind der pragmatische Standard.

Embedding-Modelle

Für Deutsch gemischte Texte liefern mehrsprachige Modelle wie intfloat/multilingual-e5-large die stabilsten Ergebnisse. OpenAI-Embeddings sind gut, aber für sensible Daten kein Thema — Embeddings enthalten semantische Information und sollten das Haus nicht verlassen.

Realität: RAG ist kein Knopf

RAG funktioniert — aber es braucht Ausprobieren. Welche Chunk-Grösse, welches Modell, welche Retrieval-Strategie (dense, sparse, hybrid) hängt vom Dokumententyp ab. Die ersten 80 % Genauigkeit sind einfach, die letzten 20 % Arbeit.

Fazit

RAG ist kein Produkt, sondern eine Architektur. Qdrant macht die Vektor-Seite einfach. Der Rest — Chunking, Prompt-Design, Evaluierung — bleibt Ingenieursarbeit.