Was ist Fine-Tuning genau?
Foundation-Models wie GPT-4, Claude oder Llama wurden auf billionen Tokens öffentlich verfügbarer Texte trainiert. Das Ergebnis ist ein Modell mit breitem Allgemeinwissen, aber ohne spezifische Anpassung an Ihre Domäne. Fine-Tuning verändert die Modell-Gewichte durch ein fortgesetztes Training auf Ihren eigenen Daten — typischerweise wenige tausend Beispiele.
Das Modell „lernt“ dabei einen Stil, ein Format oder spezialisiertes Wissen. Wichtig: Fine-Tuning ersetzt nicht die Aktualität (neues Wissen ab Training-Cutoff fehlt nach wie vor), und es eignet sich schlecht, um faktisches Wissen einzuspielen — dafür ist RAG die richtige Methode.
Wann lohnt sich Fine-Tuning?
Drei klare Ja-Szenarien:
- Spezifische Sprache: Sie generieren ständig Texte in einem sehr engen Stil — z. B. juristische Klauseln, medizinische Befunde, technische Wartungsprotokolle. Ohne Fine-Tuning müssten Sie das Modell jedes Mal mit langen Beispielen primen.
- Konsistente Output-Formate: Sie brauchen immer denselben strukturierten Output (XML, JSON-Schema, spezifisches Markdown) — Fine-Tuning erzwingt das mit höherer Zuverlässigkeit als Prompt-Engineering allein.
- Modell-Verkleinerung: Ein fine-getuned Llama 3 8B kann auf einer spezifischen Aufgabe genauso gut oder besser sein als ein generischer Claude 3.5 Sonnet — bei einem Bruchteil der Inferenz-Kosten. Lohnt bei sehr hohen Volumina.
Fine-Tuning-Methoden
Kosten & realistischer Aufwand
Die reine Compute-Rechnung ist meist nicht der teuerste Posten. Der wahre Aufwand:
- Daten-Aufbereitung: 5–15 Personentage für saubere Trainings- und Eval-Datensätze.
- Eval-Pipeline: ohne automatisierte Qualitätsmessung wissen Sie nicht, ob es geholfen hat. 3–5 PT zusätzlich.
- Compute: 200–50.000 € je nach Methode (siehe Tabelle).
- Wartung: jedes neue Foundation-Model = potenziell neues Fine-Tuning. Plus Daten-Drift-Überwachung.
- Hosting: bei Open-Weight-Modellen brauchen Sie Inference-Hosting — typisch 800–3.000 €/Monat zusätzlich.
Alternativen, die Sie zuerst probieren sollten
Bevor Sie Fine-Tuning in Erwägung ziehen, arbeiten Sie diese Liste ab:
- Besseres Prompt-Engineering: System-Prompt mit klaren Regeln, Beispielen und Eskalationsanweisungen.
- Few-Shot Prompting: 3–5 Beispiele im Prompt mitgeben. Funktioniert oft erstaunlich gut.
- RAG: bei jedem Wissens-Bezug die erste Wahl.
- Größeres Modell: bevor Sie ein kleines Modell fine-tunen, probieren Sie ein größeres ohne Fine-Tuning.
- Output-Constraints: Function Calling, Structured Outputs (JSON-Mode) erzwingen Format-Konformität ohne Fine-Tuning.
Erst wenn alle vier Stufen ausgeschöpft sind und das Ergebnis nicht reicht, lohnt sich der Sprung in Fine-Tuning. In unseren Mandaten kommt das in weniger als 10 % der Cases vor.
