Glossar · Modelle & Methoden

    Fine-Tuning — wann lohnt sich eigenes LLM-Training?

    Fine-Tuning bezeichnet das Nachtraining eines vortrainierten LLMs auf eigene Daten. In 90 % aller Mittelstands-Cases ist es die falsche Antwort — RAG ist günstiger, schneller und flexibler. Hier erfahren Sie, wann es trotzdem die richtige Wahl ist.

    30 Tage
    zum ersten Pilot
    Ø 40 %
    weniger manuelle Arbeit
    100 %
    Hosting in Deutschland
    DSGVO + EU AI Act
    konform implementiert

    Was ist Fine-Tuning genau?

    Foundation-Models wie GPT-4, Claude oder Llama wurden auf billionen Tokens öffentlich verfügbarer Texte trainiert. Das Ergebnis ist ein Modell mit breitem Allgemeinwissen, aber ohne spezifische Anpassung an Ihre Domäne. Fine-Tuning verändert die Modell-Gewichte durch ein fortgesetztes Training auf Ihren eigenen Daten — typischerweise wenige tausend Beispiele.

    Das Modell „lernt“ dabei einen Stil, ein Format oder spezialisiertes Wissen. Wichtig: Fine-Tuning ersetzt nicht die Aktualität (neues Wissen ab Training-Cutoff fehlt nach wie vor), und es eignet sich schlecht, um faktisches Wissen einzuspielen — dafür ist RAG die richtige Methode.

    Wann lohnt sich Fine-Tuning?

    Drei klare Ja-Szenarien:

    • Spezifische Sprache: Sie generieren ständig Texte in einem sehr engen Stil — z. B. juristische Klauseln, medizinische Befunde, technische Wartungsprotokolle. Ohne Fine-Tuning müssten Sie das Modell jedes Mal mit langen Beispielen primen.
    • Konsistente Output-Formate: Sie brauchen immer denselben strukturierten Output (XML, JSON-Schema, spezifisches Markdown) — Fine-Tuning erzwingt das mit höherer Zuverlässigkeit als Prompt-Engineering allein.
    • Modell-Verkleinerung: Ein fine-getuned Llama 3 8B kann auf einer spezifischen Aufgabe genauso gut oder besser sein als ein generischer Claude 3.5 Sonnet — bei einem Bruchteil der Inferenz-Kosten. Lohnt bei sehr hohen Volumina.

    Fine-Tuning-Methoden

    Tabelle horizontal scrollen
    Fine-Tuning-Methoden im Vergleich
    Kriterium
    Aufwand
    Compute-Kosten
    Wann?
    Few-Shot Prompting
    Minuten0 €Erst probieren — oft reicht das
    LoRA / QLoRA
    1–3 Tage200–2.000 €Standardpfad bei Open-Weight-Modellen
    Full Fine-Tuning
    1–4 Wochen5.000–50.000 €Maximale Qualität, große Datensätze
    OpenAI Fine-Tuning-API
    Stunden50–500 €Wenn Sie auf OpenAI-Plattform bleiben wollen
    DPO / RLHF
    Wochen10.000+ €Für Verhaltens-Alignment, sehr selten im Mittelstand

    Kosten & realistischer Aufwand

    Die reine Compute-Rechnung ist meist nicht der teuerste Posten. Der wahre Aufwand:

    • Daten-Aufbereitung: 5–15 Personentage für saubere Trainings- und Eval-Datensätze.
    • Eval-Pipeline: ohne automatisierte Qualitätsmessung wissen Sie nicht, ob es geholfen hat. 3–5 PT zusätzlich.
    • Compute: 200–50.000 € je nach Methode (siehe Tabelle).
    • Wartung: jedes neue Foundation-Model = potenziell neues Fine-Tuning. Plus Daten-Drift-Überwachung.
    • Hosting: bei Open-Weight-Modellen brauchen Sie Inference-Hosting — typisch 800–3.000 €/Monat zusätzlich.

    Alternativen, die Sie zuerst probieren sollten

    Bevor Sie Fine-Tuning in Erwägung ziehen, arbeiten Sie diese Liste ab:

    1. Besseres Prompt-Engineering: System-Prompt mit klaren Regeln, Beispielen und Eskalationsanweisungen.
    2. Few-Shot Prompting: 3–5 Beispiele im Prompt mitgeben. Funktioniert oft erstaunlich gut.
    3. RAG: bei jedem Wissens-Bezug die erste Wahl.
    4. Größeres Modell: bevor Sie ein kleines Modell fine-tunen, probieren Sie ein größeres ohne Fine-Tuning.
    5. Output-Constraints: Function Calling, Structured Outputs (JSON-Mode) erzwingen Format-Konformität ohne Fine-Tuning.

    Erst wenn alle vier Stufen ausgeschöpft sind und das Ergebnis nicht reicht, lohnt sich der Sprung in Fine-Tuning. In unseren Mandaten kommt das in weniger als 10 % der Cases vor.

    Häufig gestellte Fragen

    Wann lohnt sich Fine-Tuning wirklich?
    Drei Szenarien: (1) Sehr spezifische Sprache/Stil (z. B. medizinische Fachsprache, juristische Formulierungen), (2) konsistente Output-Formate (z. B. immer im gleichen XML-Schema), (3) Reduzierung der Modellgröße bei klar abgegrenztem Aufgabenbereich (kleines Modell mit Fine-Tuning kann großes Modell ohne Fine-Tuning schlagen). In allen anderen Fällen: erst RAG, erst Prompt-Engineering, erst Few-Shot — Fine-Tuning ist die letzte Option.
    Was kostet Fine-Tuning?
    LoRA-Fine-Tuning auf Open-Weight-Modellen (z. B. Llama 3 8B): ab ca. 200 € Compute-Kosten. Full Fine-Tuning großer Modelle: 5.000–50.000 € Compute. OpenAI/Anthropic Fine-Tuning-API: variabel, oft 50–500 €. Plus: Aufwand für Daten-Aufbereitung (Trainings- und Eval-Datensätze) — meist 5–15 Personentage. Plus: Wartung — Re-Training bei jedem neuen Foundation-Model oder bei Daten-Drift.
    Wie viele Trainingsdaten brauche ich?
    Für LoRA auf einer spezifischen Aufgabe reichen oft 500–2.000 hochwertige Beispiele. Für stilistische Anpassung 100–500. Für Wissensaneignung (was eigentlich RAG-Job wäre): mindestens 5.000–20.000 Beispiele — und selbst dann oft schlechter als RAG. Qualität schlägt Quantität: 200 perfekte Beispiele sind besser als 5.000 mittelmäßige.
    Was ist der Unterschied zwischen Fine-Tuning und RAG?
    Fine-Tuning verändert das Modell selbst (verändert Gewichte). RAG lässt das Modell unverändert und gibt ihm zur Laufzeit den passenden Kontext. RAG ist günstiger, aktualisierbar und nachvollziehbar. Fine-Tuning ist besser, wenn Sie Sprachstil oder Output-Format konsistent erzwingen müssen — was bei den meisten Wissens-Use-Cases nicht relevant ist.

    Kostenfreie KI-Potenzialanalyse

    30 Minuten Strategiegespräch mit einem KBD-Berater. Konkret, ehrlich, ohne Verkaufsdruck — wir sagen Ihnen offen, ob KI für Ihren Use Case lohnt.

    • Analyse Ihrer 3 wichtigsten Prozesse
    • Konkrete Roadmap mit Aufwandsschätzung
    • Indikative ROI-Rechnung für Ihren Case

    Ergänzend lesenswert