Glossar · Architektur

    RAG — Retrieval-Augmented Generation

    RAG ist die wichtigste Architektur, um LLMs mit Ihrem Unternehmenswissen zu verbinden. Statt ein eigenes Modell zu trainieren, wird das LLM zur Laufzeit mit den passenden Dokumenten aus Ihrer Wissensbasis angereichert. Die Standard-Lösung für interne Chatbots, Wissensportale und Produkt-Auskunft.

    30 Tage
    zum ersten Pilot
    Ø 40 %
    weniger manuelle Arbeit
    100 %
    Hosting in Deutschland
    DSGVO + EU AI Act
    konform implementiert

    Was ist RAG genau?

    Retrieval-Augmented Generation ist eine Architektur, die zwei Schritte kombiniert: (1) Retrieval — die für eine Frage relevantesten Dokumente werden aus einer Wissensbasis geholt. (2) Generation — diese Dokumente werden dem LLM als Kontext mitgegeben, das daraus eine Antwort formuliert. Der entscheidende Vorteil: das LLM antwortet auf Basis Ihrer Dokumente, nicht aus seinem allgemeinen Trainingswissen.

    Warum RAG statt Fine-Tuning?

    Bevor RAG popular wurde, dachten viele Unternehmen, sie müssten ihr LLM auf eigene Daten fine-tunen, um nutzbare Antworten zu bekommen. Das ist heute fast nie die richtige Antwort. RAG hat fünf Vorteile:

    • Aktualisierbar: ein neues Dokument wird in Minuten indexiert und ist sofort verfügbar — kein erneutes Training.
    • Günstig: kein Trainings-Cluster, keine Modell-Wartung. Pilot startet bei ca. 15.000 €.
    • Nachvollziehbar: jede Antwort kann mit Quellenangaben versehen werden („Antwort basiert auf Dokument X, Abschnitt Y“).
    • Compliance-freundlicher: sensible Daten verlassen Ihre Infrastruktur nicht — sie werden nur als Kontext an das LLM gesendet, nicht trainiert.
    • Modell-agnostisch: wenn nächstes Jahr ein besseres LLM kommt, tauschen Sie es ohne erneutes Training aus.

    Architektur Schritt für Schritt

    Ein typisches RAG-System hat sechs Komponenten:

    1. 1

      Ingestion

      Dokumente aus Quellsystemen (SharePoint, Confluence, ERP) werden geladen, OCR-bereinigt und in Chunks (typisch 300–800 Tokens) zerlegt.

    2. 2

      Embedding

      Jeder Chunk wird durch ein Embedding-Modell in einen 768- bis 3072-dimensionalen Vektor gewandelt.

    3. 3

      Vektor-DB

      Die Vektoren werden in einer Vektor-Datenbank (pgvector, Qdrant, Weaviate) gespeichert — mit Metadaten (Quelle, Datum, Berechtigung).

    4. 4

      Retrieval

      Bei einer Nutzer-Frage wird die Frage embedded und die ähnlichsten Chunks werden geholt — oft kombiniert mit Keyword-Suche (Hybrid).

    5. 5

      Re-Ranking

      Die Top-30 Treffer werden durch ein spezialisiertes Re-Ranking-Modell auf die Top-5 reduziert (großer Qualitätssprung).

    6. 6

      Generation

      Die finalen Chunks werden zusammen mit der Frage an das LLM geschickt. Es generiert die Antwort und nennt die Quellen.

    Qualitätsstellschrauben

    90 % der unzufriedenstellenden RAG-Systeme scheitern nicht am LLM, sondern an der Retrieval-Pipeline. Die wichtigsten Hebel:

    • Chunking-Strategie: nicht naive Fixed-Length-Chunks, sondern an Dokumentstruktur orientiert (Überschriften, Absätze).
    • Hybride Suche: Embedding-Suche + BM25 (Keyword) verschmelzen — Embeddings finden Synonyme, Keywords finden exakte Begriffe.
    • Re-Ranking: ein dediziertes Cross-Encoder-Modell (z. B. Cohere Rerank, BGE-Reranker) auf die Top-30 reduziert die finalen 5 mit deutlich höherer Präzision.
    • Metadaten-Filtering: Berechtigungen, Datum, Dokumenttyp als Filter vor der Vektor-Suche.
    • Faithfulness-Eval: automatischer Test, ob die Antwort wirklich aus den Quellen kommt — nicht aus LLM-Allgemeinwissen.

    Was kostet ein RAG-System?

    Realistische Korridore aus KBD-Mandaten:

    • Pilot: 14.900–24.500 € (6 Wochen, 1–2 Quellsysteme, 5–10 Pilot-Nutzer)
    • Implementation: 49.000–95.000 € (12–16 Wochen, 3–5 Quellsysteme, 50–500 Nutzer)
    • Managed Service: 3.900–6.900 €/Monat (Hosting, Vektor-DB, Modell-Updates, Pipeline-Wartung)
    • LLM-Inferenz: 5–15 €/Monat pro aktivem Nutzer

    Detaillierte Schätzung im KI-Kosten-Rechner.

    Tools & Frameworks

    Für die Implementierung gibt es einen klaren Tech-Stack-Standard 2026:

    • Orchestrierung: LlamaIndex oder LangChain (Python). Beide sind etabliert, LlamaIndex ist schlanker, LangChain hat mehr Integrationen.
    • Vektor-DB: pgvector (klein–mittel), Qdrant (mittel–groß, EU-Hosting), Weaviate (große Volumina mit Multi-Tenancy).
    • Embedding: OpenAI text-embedding-3, Cohere multilingual, BGE-M3 (open-source). Wichtig: deutsch-fähig.
    • Re-Ranking: Cohere Rerank, BGE-Reranker (open-source).
    • LLM: meist Claude 3.5 Sonnet oder GPT-4o für die Generation, kleinere Modelle für Klassifikation.

    Mehr in unserem Use Case Wissensmanagement oder direkt in der Großhandels-Case-Study.

    Häufig gestellte Fragen

    Wie unterscheidet sich RAG von Fine-Tuning?
    Fine-Tuning verändert die Gewichte des LLM permanent — teuer, langwierig, schwer zu aktualisieren. RAG lässt das Modell unverändert und gibt ihm zur Laufzeit den passenden Kontext. RAG ist 80–90 % der Cases die richtige Wahl: günstiger, aktualisierbar (neues Dokument → sofort verfügbar), nachvollziehbar (Quellenangabe möglich).
    Wie viele Dokumente kann RAG verarbeiten?
    Die Größe der Wissensbasis ist nahezu unbegrenzt — wir haben Mandanten mit 500.000+ Dokumenten produktiv. Was zählt, ist die Qualität der Retrieval-Pipeline: gute Chunking-Strategie, sinnvolle Metadaten, hybride Suche (Embeddings + Keyword) und ggf. Re-Ranking. Bei kleinen Wissensbasen (< 500 Dokumente) reicht oft naive RAG, bei größeren wird die Pipeline zur Erfolgs-Differenzierung.
    Halluziniert RAG noch?
    Weniger, aber nicht null. Wenn die Wissensbasis die Antwort nicht enthält, kann das LLM trotzdem halluzinieren. Drei Schutzmechanismen: (1) Prompt-Vorgabe „antworte nur basierend auf den Dokumenten oder sage, dass du es nicht weißt“, (2) Faithfulness-Eval (gibt das Modell die Antwort wirklich aus den Dokumenten oder erfindet es), (3) immer Quellen mit anzeigen, damit Nutzer verifizieren können.
    Was kostet ein RAG-System?
    Pilot 14.900–24.500 € (6 Wochen). Implementation 49.000–95.000 € (12–16 Wochen). Laufender Betrieb 3.900–6.900 €/Monat (Hosting, Vektor-DB, Modell-Updates). Konkrete Schätzung im KI-Kosten-Rechner mit Ihren Eckdaten.
    Welche Vektor-Datenbank ist die richtige?
    Faustregel: Bei < 100k Dokumenten reicht pgvector auf einer regulären PostgreSQL — kein zusätzlicher Anbieter, einfaches Backup. Bei 100k–10M Dokumenten lohnt eine spezialisierte DB wie Qdrant (Self-Hostable, gute EU-Optionen) oder Weaviate. Bei sehr großen Volumina kommerzielle Optionen wie Pinecone oder Vespa. Wir empfehlen für Mittelstand fast immer pgvector oder Qdrant.

    Kostenfreie KI-Potenzialanalyse

    30 Minuten Strategiegespräch mit einem KBD-Berater. Konkret, ehrlich, ohne Verkaufsdruck — wir sagen Ihnen offen, ob KI für Ihren Use Case lohnt.

    • Analyse Ihrer 3 wichtigsten Prozesse
    • Konkrete Roadmap mit Aufwandsschätzung
    • Indikative ROI-Rechnung für Ihren Case

    Ergänzend lesenswert