KI-Wissensmanagement (RAG) für Unternehmen

Warum RAG — und nicht einfach ChatGPT?

ChatGPT (oder ein anderes Foundation Model) kennt Ihr Unternehmen nicht. Es kennt keine internen Service-Berichte, keine spezifischen Konstruktions-Standards, keine kundenspezifischen Konditionen, keine Hersteller-Spezifikationen. Wer ChatGPT zu unternehmensspezifischen Themen befragt, bekommt entweder eine generische Antwort („nach allgemeinen Maßstäben…“) oder eine erfundene Antwort (Halluzination). Beides ist im Geschäftskontext nicht brauchbar.

RAG löst genau dieses Problem. Vor jeder LLM-Antwort werden relevante Quellen aus einer eigens aufgebauten Wissensdatenbank geholt und dem LLM als Kontext mitgegeben. Das LLM beantwortet die Frage auf Basis dieser Quellen. Vorteile: aktuelle Daten (Wissensdatenbank wird regelmäßig aktualisiert), geringere Halluzination (Modell hat Quellen, muss nicht raten), Quellenangabe in jeder Antwort möglich, Datenschutz (Quellen können privat bleiben — kein Modell-Training).

RAG ist die häufigste produktive KI-Architektur im Mittelstand 2026. Wir setzen RAG in etwa 70 % unserer Mandate ein, häufig kombiniert mit anderen Komponenten (agentische Workflows, klassische ML, Voice).

Standard-Architektur

RAG-Pipeline — Daten- und Anfrage-Pfad

1
Daten-Pipeline
Quellen extrahieren (PDF, Word, DB, API), bereinigen, chunken, embedden, in Vektor-DB speichern.
- →Sauberer Index
- →Metadaten erfasst
- →Re-Indexierungs-Job
2
Anfrage-Verarbeitung
User-Frage embedden, Query-Erweiterung (optional), hybride Suche (Vektor + BM25).
- →Query-Embedding
- →Kandidaten-Set
3
Re-Ranking
Kandidaten neu sortieren mit Cross-Encoder (z. B. Cohere Rerank, BGE Reranker).
- →Top-N relevante Quellen
4
Generierung
LLM bekommt Quellen + Frage als Kontext, antwortet mit Quellen-Verlinkung.
- →Antwort + Quellen
- →Logging für Eval

Datenaufbereitung — wo 60 % der Arbeit liegt

Die meisten RAG-Probleme entstehen nicht beim Modell, sondern bei den Daten. Wir investieren in Pilotprojekten regelmäßig 50–65 % des Aufwands in die Daten-Pipeline. Die wichtigsten Aufgaben:

Quellen-Extraktion: PDFs (oft mehrseitig, mit Tabellen, mit Bildern), Word/Excel-Dokumente, SharePoint-Bibliotheken, Confluence/Notion, Datenbank-Exports, E-Mail-Archive, Wissens-Tickets aus Service-Tools.
OCR für historische Bestände: Scans, Faxausdrucke, alte Kopien. Tesseract als Open-Source-Option, kommerzielle Tools (Azure Document Intelligence, Google Document AI) für komplexere Layouts.
Bereinigung: Duplikate entfernen, veraltete Versionen markieren, Boilerplate (Header, Footer) abschneiden.
Strukturierung: Hierarchie erkennen (Kapitel, Abschnitte), Tabellen extrahieren, Bild-Captions erfassen.
Metadatenanreicherung: Pro Chunk: Quell-Dokument, Datum, Autor, Komponente/Produkt, Sprache, Berechtigung.
Versionierung: Änderungs-Verfolgung, damit obsolete Inhalte rauswandern können.

Chunking-Strategien

Chunks sind die Einheiten, die in der Vektor-DB gespeichert werden. Die Strategie ist domänenspezifisch:

Tabelle horizontal scrollen

Empfehlungen für Chunking nach Datenklasse
Kriterium	Empfohlene Strategie	Größe (Tokens)	Overlap
Service-Berichte (1–3 Seiten)	Pro Bericht oder pro Abschnitt	300–500	50
Handbücher (mehrseitig)	Pro Kapitel/Unterkapitel	400–600	80
Code-Dokumentation	Pro Funktion/Klasse	200–500	0
FAQ / kurze Q&A	Pro Q&A-Paar	100–300	0
Verträge / juristische Texte	Pro Klausel	200–500	30
Wissens-Tickets	Pro Ticket	200–500	0
Lange Fließtexte (Wiki)	Semantisch (LangChain/LlamaIndex)	300–600	80

Embeddings — Modell-Wahl

Embeddings sind die mathematische Repräsentation, die semantische Ähnlichkeit messbar macht. Im Mittelstand mit deutschsprachigen Inhalten haben sich folgende Modelle 2026 bewährt:

Cohere multilingual-v3 — Beste Balance aus Qualität, Kosten (ca. 0,10 $/1M Tokens), Mehrsprachigkeit. EU-Hosting verfügbar.
BAAI/bge-m3 — Open Source, selbst hostbar, sehr gute Qualität auf Deutsch. Beste Wahl für Datenschutz-Maximalismus.
OpenAI text-embedding-3-large — Hohe Qualität, breite Verbreitung. US-Hosting (problematisch für sensible Daten).
Voyage AI voyage-3 — Sehr gute Qualität, eher hochpreisig.

Wichtig: Sobald ein Embedding-Modell gewählt ist, sollte es konsequent gehalten werden — Wechsel erfordert vollständige Re-Indexierung. Wir empfehlen, im Pilot 2 Modelle gegen das Eval-Set zu testen und dann eines verbindlich zu wählen.

Retrieval & Re-Ranking

Standard-Vektor-Suche allein reicht in Produktion fast nie. Wir empfehlen ein dreistufiges Setup:

Hybrid Retrieval: Vektor-Suche (Top-30) + BM25-Suche (Top-30), Vereinigung der Kandidaten (Top-50 nach Reziprokal-Rank-Fusion).
Re-Ranking: Cross-Encoder (Cohere Rerank-3 oder BGE Reranker) auf die Top-50 Kandidaten, Auswahl Top-N (typisch 5–8).
Optional Query-Erweiterung: User-Frage über LLM in 2–3 Suchanfragen umformulieren, Ergebnisse mergen. Verbessert Recall bei vagen Fragen.

Antwort-Generierung

Das LLM bekommt im Prompt die Top-N Quellen plus die User-Frage. Wichtig: das LLM muss explizit angewiesen werden, ausschließlich aus den Quellen zu antworten und „weiß ich nicht“ zu sagen, wenn die Antwort nicht in den Quellen steht. Quellen-Verlinkung ist Pflicht. Beispiel-System-Prompt (verkürzt):

Du bist ein Wissens-Assistent. Beantworte Fragen ausschließlich auf Basis 
der unten gegebenen Quellen. Wenn die Quellen die Frage nicht beantworten, 
sage genau: "Diese Information habe ich nicht in den verfügbaren Quellen 
gefunden." Verlinke jede Aussage mit der Quelle in eckigen Klammern, 
z.B. [Bericht-Nr. 7842, Abschnitt 4.2].

Quellen:
{quellen}

Frage: {frage}

Antwort:

Modell-Wahl

Mistral Large via La Plateforme EU — sehr gute Wahl im Mittelstand (EU-Hosting, gute Qualität, faire Kosten).
Claude 3.5 Sonnet via Anthropic EU — exzellente Qualität bei komplexen Antworten, sehr gutes Instruction-Following.
GPT-4-Klasse via Azure OpenAI EU — Standard, breit getestet, höchste Verbreitung.
Llama 3.x oder Mistral Open-Weight selbst gehostet — für Datenschutz-Maximalismus oder hohe Volumina.

Eval-Pipeline — wie messe ich Qualität?

Ein Eval-Set ist ein zentrales Asset jedes RAG-Projekts. Wir bauen typisch 50–200 Test-Cases auf:

Standard-Fragen mit bekannter erwarteter Antwort
Out-of-Scope-Fragen (System soll „weiß ich nicht“ sagen)
Mehrdeutige Fragen (System sollte Klärung anfordern)
Adversariale Fragen (Versuche, das System zu Halluzinationen zu bewegen)
Domänen-spezifische Edge Cases

Pro Test-Case wird gemessen: Antwort-Korrektheit, Quellen-Übereinstimmung, Halluzinations-Quote, Antwort-Vollständigkeit. Tools: ragas (Open Source), eigene Eval-Pipelines mit LLM-as-Judge oder menschlichen Reviews. Eval läuft im CI/CD bei jedem Modell-Wechsel und mindestens monatlich.

Häufige Fehler — und wie wir sie vermeiden

Zu wenig Aufwand in Daten-Pipeline. 60 % des Aufwands gehört in die Daten — wer das überspringt, hat einen schönen Bot, der unzuverlässig antwortet.
Falsche Chunking-Strategie. Standardmäßig 500 Tokens funktioniert nicht für alle Datenklassen. Strategie domänenspezifisch testen.
Kein Re-Ranking. Reine Vektor-Suche ist in Produktion zu schwach. Re-Ranking ist Pflicht.
Keine Quellen-Verlinkung. Akzeptanz-Killer Nr. 1. Ohne Quellen vertrauen Anwender dem System nicht.
Eval erst spät. Eval-Set sollte im Pilot von Anfang an existieren, nicht „nach Roll-out“.
Falsches Erwartungsmanagement. RAG ist sehr gut, aber nicht perfekt — typische Genauigkeit 80–90 % bei sauber gebauten Setups. Best Practices: Restrisiko klar kommunizieren, Mensch-im-Loop bei kritischen Anwendungen.
Vendor-Lock-in im LLM. Wer im Code nur eine spezifische LLM-API hardcoded, kann später nicht wechseln. Abstraktion ist Pflicht.

Kosten & Skalierung

Typische Kosten-Struktur eines mittelständischen RAG-Setups (Jahr 1)

14.900 €

Pilot Festpreis (4 Wochen)

79.000 €

Implementation (12 Wochen)

4.900 €

Managed Service / Monat

800

Ø € LLM+Embedding/Monat

Skalierung in der Vektor-DB: pgvector skaliert auf einzelnen Nodes bis ca. 10–50 Mio. Vektoren komfortabel; darüber Sharding oder Wechsel auf spezialisierte Lösungen. Im Mittelstand selten relevant — typisches Datenvolumen 0,1–5 Mio. Vektoren.

Wenn Sie einen RAG-Use-Case planen, ist der einfachste Schritt ein kostenfreies Erstgespräch. Wir prüfen Ihre Datenlage und liefern eine erste Architektur-Skizze. Konkrete Beispiel-Implementierung in unserer Maschinenbau-Case-Study.

Häufig gestellte Fragen

Was ist RAG eigentlich?

Retrieval-Augmented-Generation: Statt das LLM 'aus seinem Gedächtnis' antworten zu lassen (mit Halluzinations-Risiko), holt das System relevante Quellen aus einer Wissensdatenbank und übergibt sie dem LLM als Kontext. Das LLM antwortet auf Basis dieser Quellen. Hauptvorteile: aktuelle Daten, geringere Halluzination, Quellenangabe möglich, Datenschutz (Quellen können privat sein).

Welche Vektor-Datenbanken sind empfehlenswert?

Im Mittelstand: pgvector (PostgreSQL-Extension) für einfache, gemischte Workloads — sehr häufig die richtige Wahl. Qdrant (Open Source, gut skalierbar) für reine Vektor-Workloads. Weaviate (Open Source) wenn man hybride Suche plus Schema braucht. Kommerzielle Optionen wie Pinecone für Cloud-Native-Setups. Wir wählen meist pgvector — überschaubarer Betrieb, integrierbar mit existierender PostgreSQL.

Welche Embedding-Modelle eignen sich für Deutsch?

Stand 2026: BAAI/bge-m3, Cohere multilingual-v3, OpenAI text-embedding-3-large. Cohere ist im Mittelstands-Setup oft beste Balance aus Qualität, Kosten und Sprach-Robustheit. Für sensible Daten + selbst Hosting: BAAI/bge-m3 lokal. Wichtig: Embedding-Modell konsequent verwenden — Wechsel erfordert Re-Indexierung.

Wie groß sollten Chunks sein?

Faustregel: 300–600 Tokens, mit 50–100 Tokens Overlap. Aber: Chunk-Strategie ist domänenspezifisch. Service-Berichte: lieber pro Bericht oder Berichts-Abschnitt. Handbücher: pro Kapitel oder Unterkapitel. Code-Dokumentation: pro Funktion oder Klasse. Wir testen typisch 3 Chunking-Strategien und wählen anhand des Eval-Sets.

Was ist Hybrid Retrieval?

Kombination aus Vektor-Suche (semantisch) und klassischer Stichwortsuche (BM25). Vektor-Suche findet semantisch ähnliche Inhalte, aber nicht immer die exakten Begriffe. BM25 findet exakte Übereinstimmungen. Beide Ergebnisse werden kombiniert und re-ranked. Verbessert die Retrieval-Qualität typisch um 15–30 %.

Wie verhindere ich Halluzinationen?

Vier Mechanismen: (1) Modell-Anweisung, ausschließlich aus den übergebenen Quellen zu antworten und 'weiß ich nicht' zu sagen. (2) Quellen-Verlinkung in jeder Antwort. (3) Eval-Set mit Out-of-Scope-Fragen, das negative Antworten erzwingt. (4) Bei kritischen Use Cases: Mensch-im-Loop für Freigabe.

Wie pflege ich das System langfristig?

Drei Pflicht-Aufgaben: (1) Re-Indexierung neuer und geänderter Quellen (täglich/wöchentlich). (2) Monatliches Eval gegen Test-Set, bei Drift Anpassung. (3) Modell-Updates auf neue LLM-Versionen mit Eval-Vergleich. Im Managed Service decken wir das standardmäßig ab.

Was kostet ein produktiver RAG?

Pilot ab 14.900 €, Implementation 49.000–149.000 €, Managed Service ab 4.900 €/Monat. LLM- und Embedding-Lizenzen ca. 200–1.500 €/Monat je nach Volumen. Typische Mittelstand-Mandate: 12-Monate-Vollkosten 95.000–280.000 €.

Kostenfreie KI-Potenzialanalyse

30 Minuten Strategiegespräch mit einem KBD-Berater. Konkret, ehrlich, ohne Verkaufsdruck — wir sagen Ihnen offen, ob KI für Ihren Use Case lohnt.

Analyse Ihrer 3 wichtigsten Prozesse
Konkrete Roadmap mit Aufwandsschätzung
Indikative ROI-Rechnung für Ihren Case

Ergänzend lesenswert

Case: Service-RAG

11.400 Berichte, real produktiv

KI-Agenten

RAG als Werkzeug in Agenten

Private AI Hosting

Selbst gehostet, deutsch

DSGVO & KI

RAG datenschutz-konform

KI-Strategie

RAG in der Roadmap

Readiness-Check

Bin ich RAG-ready?