Fine-Tuning erklärt | Wann sich eigenes LLM-Training lohnt

Was ist Fine-Tuning genau?

Foundation-Models wie GPT-4, Claude oder Llama wurden auf billionen Tokens öffentlich verfügbarer Texte trainiert. Das Ergebnis ist ein Modell mit breitem Allgemeinwissen, aber ohne spezifische Anpassung an Ihre Domäne. Fine-Tuning verändert die Modell-Gewichte durch ein fortgesetztes Training auf Ihren eigenen Daten — typischerweise wenige tausend Beispiele.

Das Modell „lernt“ dabei einen Stil, ein Format oder spezialisiertes Wissen. Wichtig: Fine-Tuning ersetzt nicht die Aktualität (neues Wissen ab Training-Cutoff fehlt nach wie vor), und es eignet sich schlecht, um faktisches Wissen einzuspielen — dafür ist RAG die richtige Methode.

Wann lohnt sich Fine-Tuning?

Drei klare Ja-Szenarien:

Spezifische Sprache: Sie generieren ständig Texte in einem sehr engen Stil — z. B. juristische Klauseln, medizinische Befunde, technische Wartungsprotokolle. Ohne Fine-Tuning müssten Sie das Modell jedes Mal mit langen Beispielen primen.
Konsistente Output-Formate: Sie brauchen immer denselben strukturierten Output (XML, JSON-Schema, spezifisches Markdown) — Fine-Tuning erzwingt das mit höherer Zuverlässigkeit als Prompt-Engineering allein.
Modell-Verkleinerung: Ein fine-getuned Llama 3 8B kann auf einer spezifischen Aufgabe genauso gut oder besser sein als ein generischer Claude 3.5 Sonnet — bei einem Bruchteil der Inferenz-Kosten. Lohnt bei sehr hohen Volumina.

Fine-Tuning-Methoden

Tabelle horizontal scrollen

Fine-Tuning-Methoden im Vergleich
Kriterium	Aufwand	Compute-Kosten	Wann?
Few-Shot Prompting	Minuten	0 €	Erst probieren — oft reicht das
LoRA / QLoRA	1–3 Tage	200–2.000 €	Standardpfad bei Open-Weight-Modellen
Full Fine-Tuning	1–4 Wochen	5.000–50.000 €	Maximale Qualität, große Datensätze
OpenAI Fine-Tuning-API	Stunden	50–500 €	Wenn Sie auf OpenAI-Plattform bleiben wollen
DPO / RLHF	Wochen	10.000+ €	Für Verhaltens-Alignment, sehr selten im Mittelstand

Kosten & realistischer Aufwand

Die reine Compute-Rechnung ist meist nicht der teuerste Posten. Der wahre Aufwand:

Daten-Aufbereitung: 5–15 Personentage für saubere Trainings- und Eval-Datensätze.
Eval-Pipeline: ohne automatisierte Qualitätsmessung wissen Sie nicht, ob es geholfen hat. 3–5 PT zusätzlich.
Compute: 200–50.000 € je nach Methode (siehe Tabelle).
Wartung: jedes neue Foundation-Model = potenziell neues Fine-Tuning. Plus Daten-Drift-Überwachung.
Hosting: bei Open-Weight-Modellen brauchen Sie Inference-Hosting — typisch 800–3.000 €/Monat zusätzlich.

Alternativen, die Sie zuerst probieren sollten

Bevor Sie Fine-Tuning in Erwägung ziehen, arbeiten Sie diese Liste ab:

Besseres Prompt-Engineering: System-Prompt mit klaren Regeln, Beispielen und Eskalationsanweisungen.
Few-Shot Prompting: 3–5 Beispiele im Prompt mitgeben. Funktioniert oft erstaunlich gut.
RAG: bei jedem Wissens-Bezug die erste Wahl.
Größeres Modell: bevor Sie ein kleines Modell fine-tunen, probieren Sie ein größeres ohne Fine-Tuning.
Output-Constraints: Function Calling, Structured Outputs (JSON-Mode) erzwingen Format-Konformität ohne Fine-Tuning.

Erst wenn alle vier Stufen ausgeschöpft sind und das Ergebnis nicht reicht, lohnt sich der Sprung in Fine-Tuning. In unseren Mandaten kommt das in weniger als 10 % der Cases vor.

Häufig gestellte Fragen

Wann lohnt sich Fine-Tuning wirklich?

Drei Szenarien: (1) Sehr spezifische Sprache/Stil (z. B. medizinische Fachsprache, juristische Formulierungen), (2) konsistente Output-Formate (z. B. immer im gleichen XML-Schema), (3) Reduzierung der Modellgröße bei klar abgegrenztem Aufgabenbereich (kleines Modell mit Fine-Tuning kann großes Modell ohne Fine-Tuning schlagen). In allen anderen Fällen: erst RAG, erst Prompt-Engineering, erst Few-Shot — Fine-Tuning ist die letzte Option.

Was kostet Fine-Tuning?

LoRA-Fine-Tuning auf Open-Weight-Modellen (z. B. Llama 3 8B): ab ca. 200 € Compute-Kosten. Full Fine-Tuning großer Modelle: 5.000–50.000 € Compute. OpenAI/Anthropic Fine-Tuning-API: variabel, oft 50–500 €. Plus: Aufwand für Daten-Aufbereitung (Trainings- und Eval-Datensätze) — meist 5–15 Personentage. Plus: Wartung — Re-Training bei jedem neuen Foundation-Model oder bei Daten-Drift.

Wie viele Trainingsdaten brauche ich?

Für LoRA auf einer spezifischen Aufgabe reichen oft 500–2.000 hochwertige Beispiele. Für stilistische Anpassung 100–500. Für Wissensaneignung (was eigentlich RAG-Job wäre): mindestens 5.000–20.000 Beispiele — und selbst dann oft schlechter als RAG. Qualität schlägt Quantität: 200 perfekte Beispiele sind besser als 5.000 mittelmäßige.

Was ist der Unterschied zwischen Fine-Tuning und RAG?

Fine-Tuning verändert das Modell selbst (verändert Gewichte). RAG lässt das Modell unverändert und gibt ihm zur Laufzeit den passenden Kontext. RAG ist günstiger, aktualisierbar und nachvollziehbar. Fine-Tuning ist besser, wenn Sie Sprachstil oder Output-Format konsistent erzwingen müssen — was bei den meisten Wissens-Use-Cases nicht relevant ist.

Kostenfreie KI-Potenzialanalyse

30 Minuten Strategiegespräch mit einem KBD-Berater. Konkret, ehrlich, ohne Verkaufsdruck — wir sagen Ihnen offen, ob KI für Ihren Use Case lohnt.

Analyse Ihrer 3 wichtigsten Prozesse
Konkrete Roadmap mit Aufwandsschätzung
Indikative ROI-Rechnung für Ihren Case

Ergänzend lesenswert

RAG

Die meistens bessere Alternative

LLM

Was wird fine-getuned?

Prompt Engineering

Erste Stufe vor Fine-Tuning

ROI-Berechnung

Lohnt sich der Aufwand?