Was ist RAG genau?
Retrieval-Augmented Generation ist eine Architektur, die zwei Schritte kombiniert: (1) Retrieval — die für eine Frage relevantesten Dokumente werden aus einer Wissensbasis geholt. (2) Generation — diese Dokumente werden dem LLM als Kontext mitgegeben, das daraus eine Antwort formuliert. Der entscheidende Vorteil: das LLM antwortet auf Basis Ihrer Dokumente, nicht aus seinem allgemeinen Trainingswissen.
Warum RAG statt Fine-Tuning?
Bevor RAG popular wurde, dachten viele Unternehmen, sie müssten ihr LLM auf eigene Daten fine-tunen, um nutzbare Antworten zu bekommen. Das ist heute fast nie die richtige Antwort. RAG hat fünf Vorteile:
- Aktualisierbar: ein neues Dokument wird in Minuten indexiert und ist sofort verfügbar — kein erneutes Training.
- Günstig: kein Trainings-Cluster, keine Modell-Wartung. Pilot startet bei ca. 15.000 €.
- Nachvollziehbar: jede Antwort kann mit Quellenangaben versehen werden („Antwort basiert auf Dokument X, Abschnitt Y“).
- Compliance-freundlicher: sensible Daten verlassen Ihre Infrastruktur nicht — sie werden nur als Kontext an das LLM gesendet, nicht trainiert.
- Modell-agnostisch: wenn nächstes Jahr ein besseres LLM kommt, tauschen Sie es ohne erneutes Training aus.
Architektur Schritt für Schritt
Ein typisches RAG-System hat sechs Komponenten:
- 1
Ingestion
Dokumente aus Quellsystemen (SharePoint, Confluence, ERP) werden geladen, OCR-bereinigt und in Chunks (typisch 300–800 Tokens) zerlegt.
- 2
Embedding
Jeder Chunk wird durch ein Embedding-Modell in einen 768- bis 3072-dimensionalen Vektor gewandelt.
- 3
Vektor-DB
Die Vektoren werden in einer Vektor-Datenbank (pgvector, Qdrant, Weaviate) gespeichert — mit Metadaten (Quelle, Datum, Berechtigung).
- 4
Retrieval
Bei einer Nutzer-Frage wird die Frage embedded und die ähnlichsten Chunks werden geholt — oft kombiniert mit Keyword-Suche (Hybrid).
- 5
Re-Ranking
Die Top-30 Treffer werden durch ein spezialisiertes Re-Ranking-Modell auf die Top-5 reduziert (großer Qualitätssprung).
- 6
Generation
Die finalen Chunks werden zusammen mit der Frage an das LLM geschickt. Es generiert die Antwort und nennt die Quellen.
Qualitätsstellschrauben
90 % der unzufriedenstellenden RAG-Systeme scheitern nicht am LLM, sondern an der Retrieval-Pipeline. Die wichtigsten Hebel:
- Chunking-Strategie: nicht naive Fixed-Length-Chunks, sondern an Dokumentstruktur orientiert (Überschriften, Absätze).
- Hybride Suche: Embedding-Suche + BM25 (Keyword) verschmelzen — Embeddings finden Synonyme, Keywords finden exakte Begriffe.
- Re-Ranking: ein dediziertes Cross-Encoder-Modell (z. B. Cohere Rerank, BGE-Reranker) auf die Top-30 reduziert die finalen 5 mit deutlich höherer Präzision.
- Metadaten-Filtering: Berechtigungen, Datum, Dokumenttyp als Filter vor der Vektor-Suche.
- Faithfulness-Eval: automatischer Test, ob die Antwort wirklich aus den Quellen kommt — nicht aus LLM-Allgemeinwissen.
Was kostet ein RAG-System?
Realistische Korridore aus KBD-Mandaten:
- Pilot: 14.900–24.500 € (6 Wochen, 1–2 Quellsysteme, 5–10 Pilot-Nutzer)
- Implementation: 49.000–95.000 € (12–16 Wochen, 3–5 Quellsysteme, 50–500 Nutzer)
- Managed Service: 3.900–6.900 €/Monat (Hosting, Vektor-DB, Modell-Updates, Pipeline-Wartung)
- LLM-Inferenz: 5–15 €/Monat pro aktivem Nutzer
Detaillierte Schätzung im KI-Kosten-Rechner.
Tools & Frameworks
Für die Implementierung gibt es einen klaren Tech-Stack-Standard 2026:
- Orchestrierung: LlamaIndex oder LangChain (Python). Beide sind etabliert, LlamaIndex ist schlanker, LangChain hat mehr Integrationen.
- Vektor-DB: pgvector (klein–mittel), Qdrant (mittel–groß, EU-Hosting), Weaviate (große Volumina mit Multi-Tenancy).
- Embedding: OpenAI text-embedding-3, Cohere multilingual, BGE-M3 (open-source). Wichtig: deutsch-fähig.
- Re-Ranking: Cohere Rerank, BGE-Reranker (open-source).
- LLM: meist Claude 3.5 Sonnet oder GPT-4o für die Generation, kleinere Modelle für Klassifikation.
Mehr in unserem Use Case Wissensmanagement oder direkt in der Großhandels-Case-Study.
