RAG-Umgebungen im Vergleich: Vektordatenbanken, Chunking, Embeddings

Ein LLM beantwortet Fragen nur so gut wie sein Kontext. RAG — Retrieval-Augmented Generation — gibt ihm genau das: relevante Dokumente, bevor die Antwort formuliert wird. Die Technik ist mächtig, aber voller Fallstricke.

Die RAG-Pipeline

Dokumente laden — PDF, Markdown, HTML, Code
Chunking — Dokumente in sinnvolle Abschnitte teilen
Embedding — Textabschnitte in Vektoren umwandeln
Speichern — Vektoren in einer spezialisierten Datenbank ablegen
Query — bei Nutzerfrage ähnliche Vektoren finden und als Kontext mitgeben

Jeder Schritt beeinflusst, ob die Antwort zutrifft oder halluziniert wird.

RAG: Anfrage → Embedding → relevante Treffer aus der Vektor-DB → LLM → Antwort mit Quellen

Vektordatenbank: Warum Qdrant?

Qdrant ist in Rust geschrieben, spricht gRPC und REST und läuft als einzelnes Binary. Es braucht keinen verteilten Cluster für mittlere Datenbestände und liefert Sub-Millisekunden-Query-Zeiten.

Die Filter-API ist der unterschätzte Vorteil: Sie können zusätzlich zum Vektor-Ähnlichkeits-Ranking nach Metadaten filtern — etwa „nur Dokumente aus 2025" oder „nur von Kunde X". Das macht Retrieval präziser als reine Vektorsuche.

Chunking: Die unterschätzte Stellschraube

Zu grosse Chunks verwässern den Kontext. Zu kleine reissen Sätze auseinander. Die richtige Grösse hängt vom Embedding-Modell ab — typisch sind 512 bis 1024 Tokens mit Überlappung.

from qdrant_client import QdrantClient
client = QdrantClient(host="localhost", port=6333)

Entscheidend ist die Überlappung: ein Satz, der mitten im Chunk anfängt, verliert Kontext. 10–20 % Überlappung sind der pragmatische Standard.

Embedding-Modelle

Für Deutsch gemischte Texte liefern mehrsprachige Modelle wie intfloat/multilingual-e5-large die stabilsten Ergebnisse. OpenAI-Embeddings sind gut, aber für sensible Daten kein Thema — Embeddings enthalten semantische Information und sollten das Haus nicht verlassen.

Realität: RAG ist kein Knopf

RAG funktioniert — aber es braucht Ausprobieren. Welche Chunk-Grösse, welches Modell, welche Retrieval-Strategie (dense, sparse, hybrid) hängt vom Dokumententyp ab. Die ersten 80 % Genauigkeit sind einfach, die letzten 20 % Arbeit.

Fazit

RAG ist kein Produkt, sondern eine Architektur. Qdrant macht die Vektor-Seite einfach. Der Rest — Chunking, Prompt-Design, Evaluierung — bleibt Ingenieursarbeit.

FAQ

Müssen unsere Dokumente für RAG zu OpenAI hochgeladen werden?+

Nein. Für deutschsprachige Mischtexte liefert ein mehrsprachiges Modell wie multilingual-e5-large stabile Ergebnisse lokal. OpenAI-Embeddings sind für sensible Daten kein Thema, denn Embeddings enthalten semantische Information und sollten das Haus nicht verlassen. Die gesamte Pipeline lässt sich mit Qdrant und eigenen Modellen im eigenen Netz betreiben.

Ist RAG ein fertiges Produkt zum Einschalten?+

Nein, RAG ist eine Architektur, kein Produkt. Die ersten 80 Prozent Genauigkeit sind einfach, die letzten 20 Prozent Arbeit. Welche Chunk-Grösse, welches Embedding-Modell und welche Retrieval-Strategie — dense, sparse oder hybrid — passt, hängt vom Dokumententyp ab und braucht Ausprobieren. Chunking, Prompt-Design und Evaluierung bleiben Ingenieursarbeit.

Warum Qdrant und nicht ein grosser Datenbank-Cluster?+

Qdrant ist in Rust geschrieben, spricht gRPC und REST und läuft als einzelnes Binary — für mittlere Datenbestände braucht es keinen verteilten Cluster und liefert Sub-Millisekunden-Query-Zeiten. Der unterschätzte Vorteil ist die Filter-API: Zusätzlich zum Vektor-Ranking lässt sich nach Metadaten filtern, etwa nur Dokumente aus 2025 oder nur von Kunde X. Das macht Retrieval präziser.