Ausgangslage
Der Mandant ist eine inhabergeführte Spedition im Ruhrgebiet mit 95 Mitarbeitern und 22 M € Jahresumsatz. Die Kerngeschäftsfelder sind Stückgut-Distribution für Industriekunden (60 % des Umsatzes) und Direktverkehre für Werks-Logistik (40 %). Die Flotte umfasst 40 eigene LKW (überwiegend 7,5- und 12-Tonner für Stückgut, einige 40-Tonner für Direktverkehre) und etwa 22 Sub-Unternehmer für Spitzenlast.
Anfang 2025 hatte die Geschäftsleitung drei Probleme priorisiert. Erstens: Die Disposition (3 FTE) war chronisch überlastet, Pausen-Aufnahmen verschoben sich regelmäßig, Krankheitsfälle bedeuteten den Ausfall einer ganzen Schicht. Zweitens: Die Tourenplanung erfolgte im Wesentlichen manuell mit historischer Erfahrung — die Disponenten waren gut, aber Sub-Optima ließen sich nicht ausschließen. Schätzung der Geschäftsleitung lag bei 10–20 % Effizienzpotenzial. Drittens: Fahrer-Updates (Ankunft, Abfahrt, Probleme) erfolgten teils per WhatsApp, teils per Telefon, teils per SMS. Es gab keine strukturierte Erfassung — was Probleme bei Reklamationen verursachte und Disposition-Zeit kostete.
Ziele & Erfolgsmetriken
- Reduktion der Gesamt-Kilometerleistung um mindestens 12 % auf den Pilot-Touren bei gleicher Liefermenge.
- Reduktion des Disposition-Aufwands um mindestens 20 % (gemessen in Personenstunden / Sendung).
- Strukturelle Erfassung aller Status-Updates der Fahrer (Akzeptanz ≥80 %).
- Akzeptanz im Fahrer-Team ≥75 % (Selbstauskunft im 90-Tage-Survey).
Die Lösung im Überblick
Wir haben zwei eigenständige Komponenten gebaut, die datentechnisch verbunden sind:
Komponente 1: KI-Tourenoptimierung
Ein hybrides Modell aus klassischer Operations-Research-Optimierung (OR-Tools) und ML-basierter Reisezeit-Schätzung. Die OR-Komponente löst das Vehicle-Routing-Problem mit Lenkzeit-Restriktionen, Kunden-Zeitfenstern und LKW-Kapazitäten. Die ML-Komponente liefert Reisezeit-Vorhersagen, die deutlich präziser sind als die Standard-Schätzungen aus Routing-APIs (Trainingsdaten: 2,4 Millionen historische Sendungen über 3 Jahre).
Wichtig: Der Disponent bleibt im Loop. Der Optimierer schlägt vor, der Disponent entscheidet. Bei Standardtagen (etwa 70 % der Tage) übernimmt der Disponent den Vorschlag mit minimalen Änderungen. Bei Sondertagen (Großkunden, Sondertransporte) greift der Disponent stärker ein. Diese Mensch-im-Loop-Architektur war für die Akzeptanz der erfahrenen Disponenten entscheidend.
Komponente 2: Voice AI für Fahrer-Updates
Jeder Fahrer hat ein Smartphone (vom Arbeitgeber bereitgestellt) mit einer App, die einen Voice-Bot enthält. Der Fahrer kann jederzeit per Sprachbefehl Status melden („Ich bin bei Schmidt angekommen“, „Kunde sagt 30 Minuten Wartezeit“, „Pause“, „Liefer-Problem“). Der Voice-Assistant transkribiert, extrahiert die strukturierte Information und übergibt sie an die Disposition. Bei Rückfragen kann die Disposition über den gleichen Kanal antworten — der Fahrer hört dann eine kurze, sprachlich generierte Antwort.
Mehrsprachigkeit war eine bewusste Entscheidung. Im Fahrer-Team sprechen 38 % primär nicht Deutsch — Polnisch, Rumänisch und Tschechisch sind die häufigsten Erstsprachen. Die Möglichkeit, in der Muttersprache zu sprechen, war ein wesentlicher Akzeptanzfaktor.
Voice AI im Detail
Die Voice-Pipeline ist technisch interessant, weil sie mehrere Trade-offs balancieren musste: Latenz (Fahrer wollen sofortige Reaktion), Datenschutz (keine Audio-Aufzeichnungen außerhalb des Notwendigen), Mehrsprachigkeit, Robustheit gegen Fahrgeräusch. Unser Setup:
- Audio-Erfassung: Push-to-talk in der Fahrer-App, Audio wird komprimiert und an Server gestreamt.
- Spracherkennung (STT): Whisper Large v3 selbst gehostet auf Hetzner GPU-Server (Falkenstein). Latenz ca. 350 ms bei 5-Sekunden-Sprach-Eingabe.
- Sprach-Verstehen: Mistral Large via La Plateforme EU (Paris) extrahiert strukturierte Information mit JSON-Schema-Output.
- Sprach-Ausgabe (TTS): Cartesia für Deutsch (sehr gute Stimmqualität, niedrige Latenz), ElevenLabs für Polnisch/Rumänisch/Tschechisch.
- Ende-zu-Ende-Latenz: Ø 1,8 Sekunden vom Sprach-Ende bis zur Antwort-Sprache.
- Audio-Speicherung: Audio wird nach Transkription sofort gelöscht. Nur die strukturierte Information bleibt.
Vorgehen & Zeitplan
- 1Woche 1–2
Discovery + Betriebsrat
Workflow-Analyse mit Disposition, Datenschutz-Klärung, erstes Gespräch mit Betriebsrat.
- →Datenflüsse dokumentiert
- →Betriebsrat-Vorgespräch
- →DSFA
- 2Woche 3–6
Pilot Tourenoptimierung
OR + ML-Modell auf einer Region (Ruhrgebiet) und 12 LKW als MVP.
- →Optimierer v1
- →Vergleich vs. manuell
- →Akzeptanz Disposition
- 3Woche 5–8
Pilot Voice AI
Voice-Pipeline auf 8 Pilot-Fahrern mit allen Sprachen, Betriebsvereinbarung wird parallel verhandelt.
- →Voice-MVP
- →Mehrsprachig getestet
- →Betriebsvereinbarung
- 4Woche 9–20
Roll-out
Skalierung auf alle 40 LKW + alle 95 Fahrer + vollständige Disposition.
- →Vollständige Implementation
- →Schulung + Hyper-Care
- →Produktiv
Ergebnisse nach 12 Monaten
Gemessen über 12 Monate Live-Betrieb (Mai 2025 – Mai 2026)
Im Detail: Die Gesamtkilometerleistung ist trotz leicht gestiegener Sendungszahl (+4 %) um 18 % gesunken. Der Disposition-Aufwand pro Sendung hat sich um 25 % reduziert — die freigewordene Zeit wird heute für proaktive Kundenkommunikation und Akquise neuer Kunden eingesetzt. Die CO₂-Reduktion (anteilig zur Kilometereinsparung, Diesel-Verbrauch konstant pro km) liegt bei 12 % gegenüber Vorjahr und wird heute aktiv im Vertrieb gegenüber nachhaltigkeits-orientierten Kunden kommuniziert.
Die Voice AI wird von 88 % der Fahrer regelmäßig genutzt. 76 % nutzen sie täglich, 12 % gelegentlich. Die strukturierte Erfassung von Status-Updates liegt aktuell bei 91 % aller Sendungen — ein Wert, der vorher mit WhatsApp/Telefon/SMS undenkbar war.
„Was uns überzeugt hat, war nicht die Technik, sondern dass die Fahrer es nach 2 Wochen freiwillig genutzt haben. Das war ein Hebel, den wir mit klassischen Telematik-Lösungen nie hatten.“
— Geschäftsführer, Mai 2026
Wirtschaftlichkeit
- Pilot 27.500 € (8 Wochen, zwei Komponenten parallel)
- Implementation 96.000 € (12 Wochen)
- Managed Service 5.400 €/Monat
- LLM-, Voice- und Routing-Lizenzen ca. 1.400 €/Monat
- Hosting Hetzner ca. 620 €/Monat
- Smartphones (40 Hardware) 18.000 € einmalig
- Interne Aufwände (GF 10 % Zeit, 3 Disponenten je 15 %, IT-Owner 20 %, Betriebsrats-Begleitung) ca. 60.000 €
Total Cost of Ownership Jahr 1: rund 285.000 €. Jährliche Einsparung: 18 % weniger Kilometer (bei rund 4,2 Mio km/Jahr und Vollkosten ~0,82 €/km) ≈ 620.000 €. Disposition-Effizienz nicht für Personalabbau verwendet, sondern in Akquise umgewidmet. Net Benefit Jahr 1: ca. 335.000 €. Vollständige Amortisation aller Aufwände im 7. Live-Monat.
Stolpersteine
- Spracherkennung im Fahrgeräusch von 7,5-Tonnern war anfangs schlecht. Im Pilot lag die Erkennungsrate für Deutsch bei 78 %. Wir haben Lärmunterdrückung (RNNoise) vor die STT-Pipeline geschaltet — Erkennungsrate stieg auf 94 %. Lernung: STT-Pipelines im LKW-Kontext brauchen eigene Vorverarbeitung.
- Polnischer Dialekt unterschätzt. Whisper hat bei einigen Fahrern aus dem Schlesischen Probleme. Wir haben Sprach-Konfigurations-Profile pro Fahrer eingeführt — nach 2 Wochen Live-Trainingsdaten lag die Erkennung pro Fahrer bei 92 %+.
- Disposition empfand Optimierer-Vorschläge anfangs als Bevormundung. Drei Wochen Live-Konflikt. Wir haben das UI angepasst: Statt „System schlägt vor“ jetzt „Vergleichsbasis“ — der Disponent baut weiter selbst, sieht aber die Optimierer-Variante als Sparring. Akzeptanz stieg sofort.
- Betriebsrat-Vereinbarung dauerte 7 Wochen länger als geplant. Vier Verhandlungsrunden, viele Detailfragen zur Datenverwendung. Lernung: Betriebsrat von Anfang an einbeziehen, nicht „nachreichen“.
Lessons Learned
- Voice schlägt App im operativen Außeneinsatz. LKW-Fahrer wollen nicht tippen. Sprache funktioniert auch mit Akzent, im Fahrgeräusch, mit Handschuhen.
- Mehrsprachigkeit ist Akzeptanz-Hebel, nicht Nice-to-have. Wer Fahrer mit polnischer oder rumänischer Erstsprache hat, sollte das nicht „später machen“.
- Disponenten-Akzeptanz braucht Sparring-UI, nicht Prescriptive-UI. Erfahrene Disponenten lassen sich nichts vorschreiben — sie lassen sich aber beraten.
- Audio-Löschpflicht ist Datenschutz-Standardvorgehen. Wer Audio archiviert, hat ein DSGVO-Großproblem. Sofort transkribieren, sofort löschen.
- Lärmunterdrückung vor STT ist Pflicht im Logistik-Kontext. Roh-Audio aus dem LKW ist für Whisper zu schlecht.
- Betriebsrat ist Verbündeter, wenn er von Anfang an dabei ist. Wenn er als „Hindernis“ behandelt wird, wird er auch eines.
Wenn Sie einen vergleichbaren Use Case erwägen — Logistik-Optimierung, Voice-AI im Außenbetrieb, Disposition-Entlastung — sprechen Sie uns an. Das kostenfreie Erstgespräch ist die einfachste erste Stufe. Wenn Sie zuerst eine Selbsteinschätzung machen wollen, hilft der KI-Readiness-Check.
