Glossar · Praxis

    MLOps — produktiver Betrieb von KI-Systemen

    MLOps (Machine Learning Operations) ist die Disziplin, die KI-Systeme von „läuft im Notebook“ zu „läuft 24/7 produktiv“ bringt. Im Mittelstand wird MLOps oft unterschätzt — und genau dort versagen viele Pilotprojekte beim Übergang in den Live-Betrieb.

    30 Tage
    zum ersten Pilot
    Ø 40 %
    weniger manuelle Arbeit
    100 %
    Hosting in Deutschland
    DSGVO + EU AI Act
    konform implementiert

    Was ist MLOps?

    MLOps ist die Übertragung von DevOps-Prinzipien auf den Lebenszyklus von KI-Systemen. Während DevOps den Code-Lifecycle automatisiert (Code → Build → Test → Deploy → Monitor), umfasst MLOps zusätzlich Daten und Modelle: Daten-Pipeline → Training → Eval → Deploy → Monitoring → Re-Training.

    Der Grund: KI-Modelle sind keine statischen Artefakte. Sie veralten, sie driften, sie reagieren auf Datenqualitäts-Änderungen. Ein produktives KI-System braucht laufende Aufmerksamkeit — sonst sinkt die Qualität schleichend, oft unbemerkt, bis es zu spät ist.

    Kern-Komponenten

    Sieben Bausteine eines vernünftigen MLOps-Setups:

    1. Versionierung: Code, Daten, Modelle, Konfigurationen — alles versioniert. Git plus DVC oder ähnliches für große Daten/Modelle.
    2. Experiment-Tracking: jedes Training- oder Eval-Run wird mit Parametern, Metriken und Artefakten dokumentiert. MLflow ist der Standard.
    3. CI/CD für Modelle: automatisierte Pipelines, die bei Code- oder Daten-Änderung automatisch Eval laufen lassen und nur bei Erfolg deployen.
    4. Modell-Serving: Infrastruktur, die Modelle skaliert ausliefert. Bei LLMs heute oft via vLLM, Triton, BentoML oder direkt über Cloud-APIs.
    5. Monitoring: Performance-Metriken, Latenz, Kosten, Output-Qualität — kontinuierlich.
    6. Drift-Detection: automatische Alarmierung, wenn sich Eingabe-Daten oder Output-Verteilung signifikant verändern.
    7. Re-Training-Pipelines: bei Drift oder neuen Daten automatisch neu trainieren, evaluieren, ggf. deployen.

    LLMOps — die LLM-spezifische Variante

    Bei reinen LLM-Use-Cases ist der Stack meist schlanker, weil Sie nicht selbst trainieren. Dafür kommen LLM-spezifische Themen hinzu:

    • Prompt-Versionierung: Prompts wie Code behandeln. Tools: Promptfoo, LangSmith, Braintrust.
    • LLM-Gateway: zentrale Schicht für API-Calls mit Caching, Rate-Limiting, Cost-Tracking, Modell-Fallbacks. Standard: LiteLLM.
    • Eval-Pipelines: automatisierte Tests bei jeder Prompt- oder Modell-Änderung gegen einen Goldstandard-Datensatz.
    • Cost-Monitoring: Token-Verbrauch pro Use-Case, pro Nutzer, pro Tag — LLM-Kosten können schnell explodieren.
    • Latenz-Monitoring: P50, P95, P99-Latenzen pro Call-Pfad.
    • Faithfulness-Monitoring: bei RAG-Systemen kontinuierlich messen, ob Antworten quellentreu sind.

    Wer braucht das im Team?

    Realistische Aufstellungen je nach Reifegrad:

    • 1–2 produktive KI-Systeme: Managed-Service-Partner übernimmt MLOps, intern 1 Person als Schnittstelle (oft Teil eines Daten- oder IT-Teams).
    • 3–5 produktive Systeme: 1 dedizierte interne Rolle als KI-Engineer, weiterhin Partner für Spezialthemen.
    • 5+ Systeme: kleines internes MLOps-Team (2–4 Personen), Partner für Strategie und neue Technologien.

    Mehr in unseren Pillar-Inhalten: KI-Strategie, Beratung vs. Inhouse-Team.

    Häufig gestellte Fragen

    Brauche ich ein MLOps-Team im Mittelstand?
    Selten ein eigenes Team, aber definitiv MLOps-Praktiken. In typischen Mittelstands-Setups übernimmt der KI-Beratungspartner (Managed Service) die operative Seite, während Sie 1–2 interne Personen für Daten-Anbindung und Use-Case-Weiterentwicklung brauchen. Vollständig eigene MLOps-Teams lohnen sich erst ab ~5–10 produktiven KI-Systemen parallel.
    Was ist der Unterschied zwischen MLOps und DevOps?
    DevOps managt Code-Lifecycle. MLOps managt Code + Daten + Modell-Lifecycle. Zusätzliche Herausforderungen: Modelle veralten durch Daten-Drift, brauchen kontinuierliches Re-Training, müssen auf Performance-Regression überwacht werden. Beide Disziplinen überlappen aber stark — moderne MLOps-Stacks bauen auf DevOps-Tools auf.
    Was ist Modell-Drift?
    Modell-Drift bedeutet, dass die Performance eines KI-Modells im Laufe der Zeit nachlässt — meist weil sich die zugrundeliegenden Daten ändern (z. B. neues Produktportfolio, neuer Markt, neue Sprache der Kunden). Standardmäßig sollte Drift-Monitoring laufen: Performance-Metriken werden täglich gemessen, bei Abweichung über Schwellwert wird automatisch Alarm geschlagen.
    Welche Tools gehören in einen MLOps-Stack?
    Minimum-Stack 2026: Versionierung (Git + DVC), Experiment-Tracking (MLflow oder Weights & Biases), Modell-Serving (BentoML, Ray, vLLM), Monitoring (Arize, Langsmith), Daten-Pipeline (Airflow, Dagster). Bei reinen LLM-Use-Cases oft schlanker: Prompt-Versionierung (Promptfoo, LangSmith) + LLM-Gateway (LiteLLM) + Monitoring.

    Kostenfreie KI-Potenzialanalyse

    30 Minuten Strategiegespräch mit einem KBD-Berater. Konkret, ehrlich, ohne Verkaufsdruck — wir sagen Ihnen offen, ob KI für Ihren Use Case lohnt.

    • Analyse Ihrer 3 wichtigsten Prozesse
    • Konkrete Roadmap mit Aufwandsschätzung
    • Indikative ROI-Rechnung für Ihren Case

    Ergänzend lesenswert