Was ist MLOps?
MLOps ist die Übertragung von DevOps-Prinzipien auf den Lebenszyklus von KI-Systemen. Während DevOps den Code-Lifecycle automatisiert (Code → Build → Test → Deploy → Monitor), umfasst MLOps zusätzlich Daten und Modelle: Daten-Pipeline → Training → Eval → Deploy → Monitoring → Re-Training.
Der Grund: KI-Modelle sind keine statischen Artefakte. Sie veralten, sie driften, sie reagieren auf Datenqualitäts-Änderungen. Ein produktives KI-System braucht laufende Aufmerksamkeit — sonst sinkt die Qualität schleichend, oft unbemerkt, bis es zu spät ist.
Kern-Komponenten
Sieben Bausteine eines vernünftigen MLOps-Setups:
- Versionierung: Code, Daten, Modelle, Konfigurationen — alles versioniert. Git plus DVC oder ähnliches für große Daten/Modelle.
- Experiment-Tracking: jedes Training- oder Eval-Run wird mit Parametern, Metriken und Artefakten dokumentiert. MLflow ist der Standard.
- CI/CD für Modelle: automatisierte Pipelines, die bei Code- oder Daten-Änderung automatisch Eval laufen lassen und nur bei Erfolg deployen.
- Modell-Serving: Infrastruktur, die Modelle skaliert ausliefert. Bei LLMs heute oft via vLLM, Triton, BentoML oder direkt über Cloud-APIs.
- Monitoring: Performance-Metriken, Latenz, Kosten, Output-Qualität — kontinuierlich.
- Drift-Detection: automatische Alarmierung, wenn sich Eingabe-Daten oder Output-Verteilung signifikant verändern.
- Re-Training-Pipelines: bei Drift oder neuen Daten automatisch neu trainieren, evaluieren, ggf. deployen.
LLMOps — die LLM-spezifische Variante
Bei reinen LLM-Use-Cases ist der Stack meist schlanker, weil Sie nicht selbst trainieren. Dafür kommen LLM-spezifische Themen hinzu:
- Prompt-Versionierung: Prompts wie Code behandeln. Tools: Promptfoo, LangSmith, Braintrust.
- LLM-Gateway: zentrale Schicht für API-Calls mit Caching, Rate-Limiting, Cost-Tracking, Modell-Fallbacks. Standard: LiteLLM.
- Eval-Pipelines: automatisierte Tests bei jeder Prompt- oder Modell-Änderung gegen einen Goldstandard-Datensatz.
- Cost-Monitoring: Token-Verbrauch pro Use-Case, pro Nutzer, pro Tag — LLM-Kosten können schnell explodieren.
- Latenz-Monitoring: P50, P95, P99-Latenzen pro Call-Pfad.
- Faithfulness-Monitoring: bei RAG-Systemen kontinuierlich messen, ob Antworten quellentreu sind.
Wer braucht das im Team?
Realistische Aufstellungen je nach Reifegrad:
- 1–2 produktive KI-Systeme: Managed-Service-Partner übernimmt MLOps, intern 1 Person als Schnittstelle (oft Teil eines Daten- oder IT-Teams).
- 3–5 produktive Systeme: 1 dedizierte interne Rolle als KI-Engineer, weiterhin Partner für Spezialthemen.
- 5+ Systeme: kleines internes MLOps-Team (2–4 Personen), Partner für Strategie und neue Technologien.
Mehr in unseren Pillar-Inhalten: KI-Strategie, Beratung vs. Inhouse-Team.
