RAG-Umgebungen im Vergleich: Vektordatenbanken, Chunking, Embeddings
Ein LLM beantwortet Fragen nur so gut wie sein Kontext. RAG — Retrieval-Augmented Generation — gibt ihm genau das: relevante Dokumente, bevor die Antwort formuliert wird. Die Technik ist mächtig, aber voller Fallstricke.
Die RAG-Pipeline
- Dokumente laden — PDF, Markdown, HTML, Code
- Chunking — Dokumente in sinnvolle Abschnitte teilen
- Embedding — Textabschnitte in Vektoren umwandeln
- Speichern — Vektoren in einer spezialisierten Datenbank ablegen
- Query — bei Nutzerfrage ähnliche Vektoren finden und als Kontext mitgeben
Jeder Schritt beeinflusst, ob die Antwort zutrifft oder halluziniert wird.
Vektordatenbank: Warum Qdrant?
Qdrant ist in Rust geschrieben, spricht gRPC und REST und läuft als einzelnes Binary. Es braucht keinen verteilten Cluster für mittlere Datenbestände und liefert Sub-Millisekunden-Query-Zeiten.
Die Filter-API ist der unterschätzte Vorteil: Sie können zusätzlich zum Vektor-Ähnlichkeits-Ranking nach Metadaten filtern — etwa „nur Dokumente aus 2025" oder „nur von Kunde X". Das macht Retrieval präziser als reine Vektorsuche.
Chunking: Die unterschätzte Stellschraube
Zu grosse Chunks verwässern den Kontext. Zu kleine reissen Sätze auseinander. Die richtige Grösse hängt vom Embedding-Modell ab — typisch sind 512 bis 1024 Tokens mit Überlappung.
from qdrant_client import QdrantClient
client = QdrantClient(host="localhost", port=6333)
Entscheidend ist die Überlappung: ein Satz, der mitten im Chunk anfängt, verliert Kontext. 10–20 % Überlappung sind der pragmatische Standard.
Embedding-Modelle
Für Deutsch gemischte Texte liefern mehrsprachige Modelle wie intfloat/multilingual-e5-large die stabilsten Ergebnisse. OpenAI-Embeddings sind gut, aber für sensible Daten kein Thema — Embeddings enthalten semantische Information und sollten das Haus nicht verlassen.
Realität: RAG ist kein Knopf
RAG funktioniert — aber es braucht Ausprobieren. Welche Chunk-Grösse, welches Modell, welche Retrieval-Strategie (dense, sparse, hybrid) hängt vom Dokumententyp ab. Die ersten 80 % Genauigkeit sind einfach, die letzten 20 % Arbeit.
Fazit
RAG ist kein Produkt, sondern eine Architektur. Qdrant macht die Vektor-Seite einfach. Der Rest — Chunking, Prompt-Design, Evaluierung — bleibt Ingenieursarbeit.