RAG erklärt | Retrieval-Augmented Generation für Unternehmen

Was ist RAG genau?

Retrieval-Augmented Generation ist eine Architektur, die zwei Schritte kombiniert: (1) Retrieval — die für eine Frage relevantesten Dokumente werden aus einer Wissensbasis geholt. (2) Generation — diese Dokumente werden dem LLM als Kontext mitgegeben, das daraus eine Antwort formuliert. Der entscheidende Vorteil: das LLM antwortet auf Basis Ihrer Dokumente, nicht aus seinem allgemeinen Trainingswissen.

Warum RAG statt Fine-Tuning?

Bevor RAG popular wurde, dachten viele Unternehmen, sie müssten ihr LLM auf eigene Daten fine-tunen, um nutzbare Antworten zu bekommen. Das ist heute fast nie die richtige Antwort. RAG hat fünf Vorteile:

Aktualisierbar: ein neues Dokument wird in Minuten indexiert und ist sofort verfügbar — kein erneutes Training.
Günstig: kein Trainings-Cluster, keine Modell-Wartung. Pilot startet bei ca. 15.000 €.
Nachvollziehbar: jede Antwort kann mit Quellenangaben versehen werden („Antwort basiert auf Dokument X, Abschnitt Y“).
Compliance-freundlicher: sensible Daten verlassen Ihre Infrastruktur nicht — sie werden nur als Kontext an das LLM gesendet, nicht trainiert.
Modell-agnostisch: wenn nächstes Jahr ein besseres LLM kommt, tauschen Sie es ohne erneutes Training aus.

Architektur Schritt für Schritt

Ein typisches RAG-System hat sechs Komponenten:

1
Ingestion
Dokumente aus Quellsystemen (SharePoint, Confluence, ERP) werden geladen, OCR-bereinigt und in Chunks (typisch 300–800 Tokens) zerlegt.
2
Embedding
Jeder Chunk wird durch ein Embedding-Modell in einen 768- bis 3072-dimensionalen Vektor gewandelt.
3
Vektor-DB
Die Vektoren werden in einer Vektor-Datenbank (pgvector, Qdrant, Weaviate) gespeichert — mit Metadaten (Quelle, Datum, Berechtigung).
4
Retrieval
Bei einer Nutzer-Frage wird die Frage embedded und die ähnlichsten Chunks werden geholt — oft kombiniert mit Keyword-Suche (Hybrid).
5
Re-Ranking
Die Top-30 Treffer werden durch ein spezialisiertes Re-Ranking-Modell auf die Top-5 reduziert (großer Qualitätssprung).
6
Generation
Die finalen Chunks werden zusammen mit der Frage an das LLM geschickt. Es generiert die Antwort und nennt die Quellen.

Qualitätsstellschrauben

90 % der unzufriedenstellenden RAG-Systeme scheitern nicht am LLM, sondern an der Retrieval-Pipeline. Die wichtigsten Hebel:

Chunking-Strategie: nicht naive Fixed-Length-Chunks, sondern an Dokumentstruktur orientiert (Überschriften, Absätze).
Hybride Suche: Embedding-Suche + BM25 (Keyword) verschmelzen — Embeddings finden Synonyme, Keywords finden exakte Begriffe.
Re-Ranking: ein dediziertes Cross-Encoder-Modell (z. B. Cohere Rerank, BGE-Reranker) auf die Top-30 reduziert die finalen 5 mit deutlich höherer Präzision.
Metadaten-Filtering: Berechtigungen, Datum, Dokumenttyp als Filter vor der Vektor-Suche.
Faithfulness-Eval: automatischer Test, ob die Antwort wirklich aus den Quellen kommt — nicht aus LLM-Allgemeinwissen.

Was kostet ein RAG-System?

Realistische Korridore aus KBD-Mandaten:

Pilot: 14.900–24.500 € (6 Wochen, 1–2 Quellsysteme, 5–10 Pilot-Nutzer)
Implementation: 49.000–95.000 € (12–16 Wochen, 3–5 Quellsysteme, 50–500 Nutzer)
Managed Service: 3.900–6.900 €/Monat (Hosting, Vektor-DB, Modell-Updates, Pipeline-Wartung)
LLM-Inferenz: 5–15 €/Monat pro aktivem Nutzer

Detaillierte Schätzung im KI-Kosten-Rechner.

Tools & Frameworks

Für die Implementierung gibt es einen klaren Tech-Stack-Standard 2026:

Orchestrierung: LlamaIndex oder LangChain (Python). Beide sind etabliert, LlamaIndex ist schlanker, LangChain hat mehr Integrationen.
Vektor-DB: pgvector (klein–mittel), Qdrant (mittel–groß, EU-Hosting), Weaviate (große Volumina mit Multi-Tenancy).
Embedding: OpenAI text-embedding-3, Cohere multilingual, BGE-M3 (open-source). Wichtig: deutsch-fähig.
Re-Ranking: Cohere Rerank, BGE-Reranker (open-source).
LLM: meist Claude 3.5 Sonnet oder GPT-4o für die Generation, kleinere Modelle für Klassifikation.

Mehr in unserem Use Case Wissensmanagement oder direkt in der Großhandels-Case-Study.

Häufig gestellte Fragen

Wie unterscheidet sich RAG von Fine-Tuning?

Fine-Tuning verändert die Gewichte des LLM permanent — teuer, langwierig, schwer zu aktualisieren. RAG lässt das Modell unverändert und gibt ihm zur Laufzeit den passenden Kontext. RAG ist 80–90 % der Cases die richtige Wahl: günstiger, aktualisierbar (neues Dokument → sofort verfügbar), nachvollziehbar (Quellenangabe möglich).

Wie viele Dokumente kann RAG verarbeiten?

Die Größe der Wissensbasis ist nahezu unbegrenzt — wir haben Mandanten mit 500.000+ Dokumenten produktiv. Was zählt, ist die Qualität der Retrieval-Pipeline: gute Chunking-Strategie, sinnvolle Metadaten, hybride Suche (Embeddings + Keyword) und ggf. Re-Ranking. Bei kleinen Wissensbasen (< 500 Dokumente) reicht oft naive RAG, bei größeren wird die Pipeline zur Erfolgs-Differenzierung.

Halluziniert RAG noch?

Weniger, aber nicht null. Wenn die Wissensbasis die Antwort nicht enthält, kann das LLM trotzdem halluzinieren. Drei Schutzmechanismen: (1) Prompt-Vorgabe „antworte nur basierend auf den Dokumenten oder sage, dass du es nicht weißt“, (2) Faithfulness-Eval (gibt das Modell die Antwort wirklich aus den Dokumenten oder erfindet es), (3) immer Quellen mit anzeigen, damit Nutzer verifizieren können.

Was kostet ein RAG-System?

Pilot 14.900–24.500 € (6 Wochen). Implementation 49.000–95.000 € (12–16 Wochen). Laufender Betrieb 3.900–6.900 €/Monat (Hosting, Vektor-DB, Modell-Updates). Konkrete Schätzung im KI-Kosten-Rechner mit Ihren Eckdaten.

Welche Vektor-Datenbank ist die richtige?

Faustregel: Bei < 100k Dokumenten reicht pgvector auf einer regulären PostgreSQL — kein zusätzlicher Anbieter, einfaches Backup. Bei 100k–10M Dokumenten lohnt eine spezialisierte DB wie Qdrant (Self-Hostable, gute EU-Optionen) oder Weaviate. Bei sehr großen Volumina kommerzielle Optionen wie Pinecone oder Vespa. Wir empfehlen für Mittelstand fast immer pgvector oder Qdrant.

Kostenfreie KI-Potenzialanalyse

30 Minuten Strategiegespräch mit einem KBD-Berater. Konkret, ehrlich, ohne Verkaufsdruck — wir sagen Ihnen offen, ob KI für Ihren Use Case lohnt.

Analyse Ihrer 3 wichtigsten Prozesse
Konkrete Roadmap mit Aufwandsschätzung
Indikative ROI-Rechnung für Ihren Case

Ergänzend lesenswert

LLM

Das Sprachmodell hinter RAG

Embedding

Wie Dokumente durchsuchbar werden

Vektor-Datenbank

Speicher für Embeddings

Use Case Wissensmanagement

RAG in der Praxis

Case: Großhandel

RAG-System mit ERP-Anbindung

Kosten-Rechner

Was kostet RAG?

RAG — Retrieval-Augmented Generation

Was ist RAG genau?

Warum RAG statt Fine-Tuning?

Architektur Schritt für Schritt

Ingestion

Embedding

Vektor-DB

Retrieval

Re-Ranking

Generation

Qualitätsstellschrauben

Was kostet ein RAG-System?

Tools & Frameworks

Häufig gestellte Fragen

Kostenfreie KI-Potenzialanalyse

Ergänzend lesenswert

LLM

Embedding

Vektor-Datenbank

Use Case Wissensmanagement

Case: Großhandel

Kosten-Rechner