Use-Case Pillar · Wissen

    KI-Wissensmanagement mit RAG — Praxis-Leitfaden

    Retrieval-Augmented-Generation (RAG) ist 2026 der häufigste produktive KI-Use-Case im Mittelstand. Methodik, Architektur, Datenaufbereitung, Eval-Vorgehen und die häufigsten Fehler — als Praxis-Leitfaden.

    30 Tage
    zum ersten Pilot
    Ø 40 %
    weniger manuelle Arbeit
    100 %
    Hosting in Deutschland
    DSGVO + EU AI Act
    konform implementiert

    Warum RAG — und nicht einfach ChatGPT?

    ChatGPT (oder ein anderes Foundation Model) kennt Ihr Unternehmen nicht. Es kennt keine internen Service-Berichte, keine spezifischen Konstruktions-Standards, keine kundenspezifischen Konditionen, keine Hersteller-Spezifikationen. Wer ChatGPT zu unternehmensspezifischen Themen befragt, bekommt entweder eine generische Antwort („nach allgemeinen Maßstäben…“) oder eine erfundene Antwort (Halluzination). Beides ist im Geschäftskontext nicht brauchbar.

    RAG löst genau dieses Problem. Vor jeder LLM-Antwort werden relevante Quellen aus einer eigens aufgebauten Wissensdatenbank geholt und dem LLM als Kontext mitgegeben. Das LLM beantwortet die Frage auf Basis dieser Quellen. Vorteile: aktuelle Daten (Wissensdatenbank wird regelmäßig aktualisiert), geringere Halluzination (Modell hat Quellen, muss nicht raten), Quellenangabe in jeder Antwort möglich, Datenschutz (Quellen können privat bleiben — kein Modell-Training).

    RAG ist die häufigste produktive KI-Architektur im Mittelstand 2026. Wir setzen RAG in etwa 70 % unserer Mandate ein, häufig kombiniert mit anderen Komponenten (agentische Workflows, klassische ML, Voice).

    Standard-Architektur

    RAG-Pipeline — Daten- und Anfrage-Pfad

    1. 1

      Daten-Pipeline

      Quellen extrahieren (PDF, Word, DB, API), bereinigen, chunken, embedden, in Vektor-DB speichern.

      • Sauberer Index
      • Metadaten erfasst
      • Re-Indexierungs-Job
    2. 2

      Anfrage-Verarbeitung

      User-Frage embedden, Query-Erweiterung (optional), hybride Suche (Vektor + BM25).

      • Query-Embedding
      • Kandidaten-Set
    3. 3

      Re-Ranking

      Kandidaten neu sortieren mit Cross-Encoder (z. B. Cohere Rerank, BGE Reranker).

      • Top-N relevante Quellen
    4. 4

      Generierung

      LLM bekommt Quellen + Frage als Kontext, antwortet mit Quellen-Verlinkung.

      • Antwort + Quellen
      • Logging für Eval

    Datenaufbereitung — wo 60 % der Arbeit liegt

    Die meisten RAG-Probleme entstehen nicht beim Modell, sondern bei den Daten. Wir investieren in Pilotprojekten regelmäßig 50–65 % des Aufwands in die Daten-Pipeline. Die wichtigsten Aufgaben:

    • Quellen-Extraktion: PDFs (oft mehrseitig, mit Tabellen, mit Bildern), Word/Excel-Dokumente, SharePoint-Bibliotheken, Confluence/Notion, Datenbank-Exports, E-Mail-Archive, Wissens-Tickets aus Service-Tools.
    • OCR für historische Bestände: Scans, Faxausdrucke, alte Kopien. Tesseract als Open-Source-Option, kommerzielle Tools (Azure Document Intelligence, Google Document AI) für komplexere Layouts.
    • Bereinigung: Duplikate entfernen, veraltete Versionen markieren, Boilerplate (Header, Footer) abschneiden.
    • Strukturierung: Hierarchie erkennen (Kapitel, Abschnitte), Tabellen extrahieren, Bild-Captions erfassen.
    • Metadatenanreicherung: Pro Chunk: Quell-Dokument, Datum, Autor, Komponente/Produkt, Sprache, Berechtigung.
    • Versionierung: Änderungs-Verfolgung, damit obsolete Inhalte rauswandern können.

    Chunking-Strategien

    Chunks sind die Einheiten, die in der Vektor-DB gespeichert werden. Die Strategie ist domänenspezifisch:

    Tabelle horizontal scrollen
    Empfehlungen für Chunking nach Datenklasse
    Kriterium
    Empfohlene Strategie
    Größe (Tokens)
    Overlap
    Service-Berichte (1–3 Seiten)
    Pro Bericht oder pro Abschnitt300–50050
    Handbücher (mehrseitig)
    Pro Kapitel/Unterkapitel400–60080
    Code-Dokumentation
    Pro Funktion/Klasse200–5000
    FAQ / kurze Q&A
    Pro Q&A-Paar100–3000
    Verträge / juristische Texte
    Pro Klausel200–50030
    Wissens-Tickets
    Pro Ticket200–5000
    Lange Fließtexte (Wiki)
    Semantisch (LangChain/LlamaIndex)300–60080

    Embeddings — Modell-Wahl

    Embeddings sind die mathematische Repräsentation, die semantische Ähnlichkeit messbar macht. Im Mittelstand mit deutschsprachigen Inhalten haben sich folgende Modelle 2026 bewährt:

    • Cohere multilingual-v3 — Beste Balance aus Qualität, Kosten (ca. 0,10 $/1M Tokens), Mehrsprachigkeit. EU-Hosting verfügbar.
    • BAAI/bge-m3 — Open Source, selbst hostbar, sehr gute Qualität auf Deutsch. Beste Wahl für Datenschutz-Maximalismus.
    • OpenAI text-embedding-3-large — Hohe Qualität, breite Verbreitung. US-Hosting (problematisch für sensible Daten).
    • Voyage AI voyage-3 — Sehr gute Qualität, eher hochpreisig.

    Wichtig: Sobald ein Embedding-Modell gewählt ist, sollte es konsequent gehalten werden — Wechsel erfordert vollständige Re-Indexierung. Wir empfehlen, im Pilot 2 Modelle gegen das Eval-Set zu testen und dann eines verbindlich zu wählen.

    Retrieval & Re-Ranking

    Standard-Vektor-Suche allein reicht in Produktion fast nie. Wir empfehlen ein dreistufiges Setup:

    1. Hybrid Retrieval: Vektor-Suche (Top-30) + BM25-Suche (Top-30), Vereinigung der Kandidaten (Top-50 nach Reziprokal-Rank-Fusion).
    2. Re-Ranking: Cross-Encoder (Cohere Rerank-3 oder BGE Reranker) auf die Top-50 Kandidaten, Auswahl Top-N (typisch 5–8).
    3. Optional Query-Erweiterung: User-Frage über LLM in 2–3 Suchanfragen umformulieren, Ergebnisse mergen. Verbessert Recall bei vagen Fragen.

    Antwort-Generierung

    Das LLM bekommt im Prompt die Top-N Quellen plus die User-Frage. Wichtig: das LLM muss explizit angewiesen werden, ausschließlich aus den Quellen zu antworten und „weiß ich nicht“ zu sagen, wenn die Antwort nicht in den Quellen steht. Quellen-Verlinkung ist Pflicht. Beispiel-System-Prompt (verkürzt):

    Du bist ein Wissens-Assistent. Beantworte Fragen ausschließlich auf Basis 
    der unten gegebenen Quellen. Wenn die Quellen die Frage nicht beantworten, 
    sage genau: "Diese Information habe ich nicht in den verfügbaren Quellen 
    gefunden." Verlinke jede Aussage mit der Quelle in eckigen Klammern, 
    z.B. [Bericht-Nr. 7842, Abschnitt 4.2].
    
    Quellen:
    {quellen}
    
    Frage: {frage}
    
    Antwort:

    Modell-Wahl

    • Mistral Large via La Plateforme EU — sehr gute Wahl im Mittelstand (EU-Hosting, gute Qualität, faire Kosten).
    • Claude 3.5 Sonnet via Anthropic EU — exzellente Qualität bei komplexen Antworten, sehr gutes Instruction-Following.
    • GPT-4-Klasse via Azure OpenAI EU — Standard, breit getestet, höchste Verbreitung.
    • Llama 3.x oder Mistral Open-Weight selbst gehostet — für Datenschutz-Maximalismus oder hohe Volumina.

    Eval-Pipeline — wie messe ich Qualität?

    Ein Eval-Set ist ein zentrales Asset jedes RAG-Projekts. Wir bauen typisch 50–200 Test-Cases auf:

    • Standard-Fragen mit bekannter erwarteter Antwort
    • Out-of-Scope-Fragen (System soll „weiß ich nicht“ sagen)
    • Mehrdeutige Fragen (System sollte Klärung anfordern)
    • Adversariale Fragen (Versuche, das System zu Halluzinationen zu bewegen)
    • Domänen-spezifische Edge Cases

    Pro Test-Case wird gemessen: Antwort-Korrektheit, Quellen-Übereinstimmung, Halluzinations-Quote, Antwort-Vollständigkeit. Tools: ragas (Open Source), eigene Eval-Pipelines mit LLM-as-Judge oder menschlichen Reviews. Eval läuft im CI/CD bei jedem Modell-Wechsel und mindestens monatlich.

    Häufige Fehler — und wie wir sie vermeiden

    1. Zu wenig Aufwand in Daten-Pipeline. 60 % des Aufwands gehört in die Daten — wer das überspringt, hat einen schönen Bot, der unzuverlässig antwortet.
    2. Falsche Chunking-Strategie. Standardmäßig 500 Tokens funktioniert nicht für alle Datenklassen. Strategie domänenspezifisch testen.
    3. Kein Re-Ranking. Reine Vektor-Suche ist in Produktion zu schwach. Re-Ranking ist Pflicht.
    4. Keine Quellen-Verlinkung. Akzeptanz-Killer Nr. 1. Ohne Quellen vertrauen Anwender dem System nicht.
    5. Eval erst spät. Eval-Set sollte im Pilot von Anfang an existieren, nicht „nach Roll-out“.
    6. Falsches Erwartungsmanagement. RAG ist sehr gut, aber nicht perfekt — typische Genauigkeit 80–90 % bei sauber gebauten Setups. Best Practices: Restrisiko klar kommunizieren, Mensch-im-Loop bei kritischen Anwendungen.
    7. Vendor-Lock-in im LLM. Wer im Code nur eine spezifische LLM-API hardcoded, kann später nicht wechseln. Abstraktion ist Pflicht.

    Kosten & Skalierung

    Typische Kosten-Struktur eines mittelständischen RAG-Setups (Jahr 1)

    14.900 €
    Pilot Festpreis (4 Wochen)
    79.000 €
    Implementation (12 Wochen)
    4.900 €
    Managed Service / Monat
    800
    Ø € LLM+Embedding/Monat

    Skalierung in der Vektor-DB: pgvector skaliert auf einzelnen Nodes bis ca. 10–50 Mio. Vektoren komfortabel; darüber Sharding oder Wechsel auf spezialisierte Lösungen. Im Mittelstand selten relevant — typisches Datenvolumen 0,1–5 Mio. Vektoren.

    Wenn Sie einen RAG-Use-Case planen, ist der einfachste Schritt ein kostenfreies Erstgespräch. Wir prüfen Ihre Datenlage und liefern eine erste Architektur-Skizze. Konkrete Beispiel-Implementierung in unserer Maschinenbau-Case-Study.

    Häufig gestellte Fragen

    Was ist RAG eigentlich?
    Retrieval-Augmented-Generation: Statt das LLM 'aus seinem Gedächtnis' antworten zu lassen (mit Halluzinations-Risiko), holt das System relevante Quellen aus einer Wissensdatenbank und übergibt sie dem LLM als Kontext. Das LLM antwortet auf Basis dieser Quellen. Hauptvorteile: aktuelle Daten, geringere Halluzination, Quellenangabe möglich, Datenschutz (Quellen können privat sein).
    Welche Vektor-Datenbanken sind empfehlenswert?
    Im Mittelstand: pgvector (PostgreSQL-Extension) für einfache, gemischte Workloads — sehr häufig die richtige Wahl. Qdrant (Open Source, gut skalierbar) für reine Vektor-Workloads. Weaviate (Open Source) wenn man hybride Suche plus Schema braucht. Kommerzielle Optionen wie Pinecone für Cloud-Native-Setups. Wir wählen meist pgvector — überschaubarer Betrieb, integrierbar mit existierender PostgreSQL.
    Welche Embedding-Modelle eignen sich für Deutsch?
    Stand 2026: BAAI/bge-m3, Cohere multilingual-v3, OpenAI text-embedding-3-large. Cohere ist im Mittelstands-Setup oft beste Balance aus Qualität, Kosten und Sprach-Robustheit. Für sensible Daten + selbst Hosting: BAAI/bge-m3 lokal. Wichtig: Embedding-Modell konsequent verwenden — Wechsel erfordert Re-Indexierung.
    Wie groß sollten Chunks sein?
    Faustregel: 300–600 Tokens, mit 50–100 Tokens Overlap. Aber: Chunk-Strategie ist domänenspezifisch. Service-Berichte: lieber pro Bericht oder Berichts-Abschnitt. Handbücher: pro Kapitel oder Unterkapitel. Code-Dokumentation: pro Funktion oder Klasse. Wir testen typisch 3 Chunking-Strategien und wählen anhand des Eval-Sets.
    Was ist Hybrid Retrieval?
    Kombination aus Vektor-Suche (semantisch) und klassischer Stichwortsuche (BM25). Vektor-Suche findet semantisch ähnliche Inhalte, aber nicht immer die exakten Begriffe. BM25 findet exakte Übereinstimmungen. Beide Ergebnisse werden kombiniert und re-ranked. Verbessert die Retrieval-Qualität typisch um 15–30 %.
    Wie verhindere ich Halluzinationen?
    Vier Mechanismen: (1) Modell-Anweisung, ausschließlich aus den übergebenen Quellen zu antworten und 'weiß ich nicht' zu sagen. (2) Quellen-Verlinkung in jeder Antwort. (3) Eval-Set mit Out-of-Scope-Fragen, das negative Antworten erzwingt. (4) Bei kritischen Use Cases: Mensch-im-Loop für Freigabe.
    Wie pflege ich das System langfristig?
    Drei Pflicht-Aufgaben: (1) Re-Indexierung neuer und geänderter Quellen (täglich/wöchentlich). (2) Monatliches Eval gegen Test-Set, bei Drift Anpassung. (3) Modell-Updates auf neue LLM-Versionen mit Eval-Vergleich. Im Managed Service decken wir das standardmäßig ab.
    Was kostet ein produktiver RAG?
    Pilot ab 14.900 €, Implementation 49.000–149.000 €, Managed Service ab 4.900 €/Monat. LLM- und Embedding-Lizenzen ca. 200–1.500 €/Monat je nach Volumen. Typische Mittelstand-Mandate: 12-Monate-Vollkosten 95.000–280.000 €.

    Kostenfreie KI-Potenzialanalyse

    30 Minuten Strategiegespräch mit einem KBD-Berater. Konkret, ehrlich, ohne Verkaufsdruck — wir sagen Ihnen offen, ob KI für Ihren Use Case lohnt.

    • Analyse Ihrer 3 wichtigsten Prozesse
    • Konkrete Roadmap mit Aufwandsschätzung
    • Indikative ROI-Rechnung für Ihren Case

    Ergänzend lesenswert