Was ist was?
Retrieval-Augmented Generation (RAG) kombiniert ein Standard-LLM (z. B. GPT-4, Claude, Mistral, Llama) mit einer Wissensdatenbank: Bei jeder Anfrage werden relevante Dokumente aus Ihren Daten gesucht und dem Modell als Kontext mitgegeben. Das Modell selbst bleibt unverändert — Wissen kommt aus dem Retrieval-Layer.
Fine-Tuning nimmt ein Basis-Modell und trainiert es auf Ihren Daten weiter. Das Modell „lernt" Ton, Format, fachsprachliche Eigenheiten und interne Begriffe. Das Wissen wird in den Gewichten des Modells gespeichert — kein Retrieval nötig, dafür auch keine einfache Aktualisierbarkeit.
Direktvergleich
Kosten-Profile
Realistische Kosten für einen mittelständischen Use Case (z. B. interner Wissens-Chatbot, 500 MA, 50.000 Anfragen/Monat):
- RAG-Setup: 12–25 k€ (Architektur, Vektordatenbank-Setup, Embedding-Pipeline, UI). 4–8 Wochen.
- RAG-Betrieb: 800–2.500 €/Monat (LLM-API + Vektordatenbank + Embeddings + Hosting).
- Fine-Tuning-Setup: 8–25 k€ Trainings-Lauf bei kommerziellen Anbietern (OpenAI, Anthropic, Mistral) — bei Open-Source-Modellen on-prem 25–60 k€ inklusive Daten-Aufbereitung.
- Daten-Aufbereitung Fine-Tuning: 15–40 k€ — typisch unterschätzt. Sie brauchen 1.000–10.000 hochqualitative Beispiele in einheitlichem Format.
- Fine-Tuning-Betrieb: 400–1.800 €/Monat (Inferenz auf eigenem Modell oder Anbieter-Hosting).
- Re-Training-Zyklus: 4–10 k€ pro Iteration, typisch alle 3–6 Monate.
Datenfrische — der größte Unterschied
Wenn sich Ihre Daten häufig ändern (Preise, Verfügbarkeiten, Personen, Verträge, Compliance-Dokumente, Produktkataloge), ist RAG fast alternativlos. Eine Aktualisierung in der Wissensdatenbank wirkt sofort — das Modell liefert ab der nächsten Anfrage die aktuelle Information. Bei Fine-Tuning muss für jeden Daten-Update ein neuer Trainings-Lauf durchgeführt werden, der je nach Datenvolumen 4–12 Wochen dauert.
Qualität & Halluzinationen
Beide Architekturen reduzieren Halluzinationen gegenüber einem nackten LLM-Prompt — aber unterschiedlich. RAG verankert Antworten in zitierbaren Quellen; das Modell kann „ich habe dazu keine Information" sagen, wenn das Retrieval leer bleibt. Fine-Tuned Modelle „kennen" die Domäne intuitiv, sind aber anfälliger für plausibel klingende, aber falsche Antworten — weil die Trainings-Daten verinnerlicht wurden, ohne dass die Quelle nachweisbar ist.
Für Use Cases mit hohem Wahrheitsanspruch (Compliance, Recht, Medizin, Finanz) ist die Quellen-Nachweisbarkeit von RAG ein zentrales Sicherheits-Feature. Mehr dazu in unserem DSGVO-Leitfaden.
DSGVO & Datenhoheit
Bei RAG bleiben Ihre Daten in Ihrer Datenbank — sie werden nur als temporärer Kontext an das Modell übergeben. Das vereinfacht Datenschutz-Folgenabschätzung, Auftragsverarbeitungsverträge und Lösch-Konzepte erheblich. Bei Fine-Tuning werden Ihre Daten in das Modell hineingebrannt — Lösch-Anfragen sind nur durch komplette Neutrainings vollständig erfüllbar.
Für sensible Anwendungen (HR-Daten, Patientendaten, Vertragsinhalte) empfehlen wir RAG mit klarer Trennung: Modell läuft beim Anbieter (oder on-prem), Wissensdatenbank im Unternehmen. Mehr in unserem Private AI Leitfaden.
Hybrid-Architekturen
State-of-the-Art für anspruchsvolle Anwendungen ist die Kombination: Fine-Tuning auf Ton, Format, Domänensprache (statisches Wissen, das Ihre Marke und Ihren Schreibstil prägt) plus RAG für aktuelle Fakten, Zahlen, Personen und Wissens-Updates. Beispiele: Juristische Verträge mit hauseigener Klausel-Sprache (Fine-Tuning) und tagesaktuellen Vertragspartner-Daten (RAG); Medizinische Berichte in klinikspezifischem Format (Fine-Tuning) mit aktuellen Behandlungs-Leitlinien (RAG).
Wann was?
Reines RAG, wenn…
- … Ihre Daten sich häufig ändern.
- … Quellen-Nachweis wichtig ist.
- … Sie schnell live gehen müssen (4–8 Wochen).
- … DSGVO-Daten-Hoheit zentral ist.
- … der Use Case ein Wissens-Lookup-Charakter hat (Q&A, Suche, Recherche).
Fine-Tuning, wenn…
- … ein spezifischer Ton, Stil oder Format zwingend ist (Marketing-Text, Brand-Voice).
- … die Domänensprache stark vom Standard abweicht.
- … das Modell konsistent ein bestimmtes Antwort-Format liefern soll.
- … Inferenz-Kosten kritisch sind (Fine-Tuning hat kürzere Prompts).
Hybrid, wenn…
- … Sie höchste Qualität anstreben und Budget für 30–80 k€ Setup haben.
- … Ton + Aktualität gleichermaßen wichtig sind.
- … der Use Case strategisch ist und langfristig betrieben wird.
Architektur-Verteilung in 24 KBD-Mandaten 2025–2026
Sie sind unsicher, welcher Pfad zu Ihrem Use Case passt? Im kostenfreien 30-Minuten-Erstgespräch klären wir das anhand Ihrer konkreten Daten- und Anwendungslage. Häufig zeigt sich in 20 Minuten, ob RAG ausreicht oder ein Hybrid-Ansatz nötig ist.
