Case Study Logistik | KI-Disposition + Voice AI für Fahrer (95 MA)

Ausgangslage

Der Mandant ist eine inhabergeführte Spedition im Ruhrgebiet mit 95 Mitarbeitern und 22 M € Jahresumsatz. Die Kerngeschäftsfelder sind Stückgut-Distribution für Industriekunden (60 % des Umsatzes) und Direktverkehre für Werks-Logistik (40 %). Die Flotte umfasst 40 eigene LKW (überwiegend 7,5- und 12-Tonner für Stückgut, einige 40-Tonner für Direktverkehre) und etwa 22 Sub-Unternehmer für Spitzenlast.

Anfang 2025 hatte die Geschäftsleitung drei Probleme priorisiert. Erstens: Die Disposition (3 FTE) war chronisch überlastet, Pausen-Aufnahmen verschoben sich regelmäßig, Krankheitsfälle bedeuteten den Ausfall einer ganzen Schicht. Zweitens: Die Tourenplanung erfolgte im Wesentlichen manuell mit historischer Erfahrung — die Disponenten waren gut, aber Sub-Optima ließen sich nicht ausschließen. Schätzung der Geschäftsleitung lag bei 10–20 % Effizienzpotenzial. Drittens: Fahrer-Updates (Ankunft, Abfahrt, Probleme) erfolgten teils per WhatsApp, teils per Telefon, teils per SMS. Es gab keine strukturierte Erfassung — was Probleme bei Reklamationen verursachte und Disposition-Zeit kostete.

Ziele & Erfolgsmetriken

Reduktion der Gesamt-Kilometerleistung um mindestens 12 % auf den Pilot-Touren bei gleicher Liefermenge.
Reduktion des Disposition-Aufwands um mindestens 20 % (gemessen in Personenstunden / Sendung).
Strukturelle Erfassung aller Status-Updates der Fahrer (Akzeptanz ≥80 %).
Akzeptanz im Fahrer-Team ≥75 % (Selbstauskunft im 90-Tage-Survey).

Die Lösung im Überblick

Wir haben zwei eigenständige Komponenten gebaut, die datentechnisch verbunden sind:

Komponente 1: KI-Tourenoptimierung

Ein hybrides Modell aus klassischer Operations-Research-Optimierung (OR-Tools) und ML-basierter Reisezeit-Schätzung. Die OR-Komponente löst das Vehicle-Routing-Problem mit Lenkzeit-Restriktionen, Kunden-Zeitfenstern und LKW-Kapazitäten. Die ML-Komponente liefert Reisezeit-Vorhersagen, die deutlich präziser sind als die Standard-Schätzungen aus Routing-APIs (Trainingsdaten: 2,4 Millionen historische Sendungen über 3 Jahre).

Wichtig: Der Disponent bleibt im Loop. Der Optimierer schlägt vor, der Disponent entscheidet. Bei Standardtagen (etwa 70 % der Tage) übernimmt der Disponent den Vorschlag mit minimalen Änderungen. Bei Sondertagen (Großkunden, Sondertransporte) greift der Disponent stärker ein. Diese Mensch-im-Loop-Architektur war für die Akzeptanz der erfahrenen Disponenten entscheidend.

Komponente 2: Voice AI für Fahrer-Updates

Jeder Fahrer hat ein Smartphone (vom Arbeitgeber bereitgestellt) mit einer App, die einen Voice-Bot enthält. Der Fahrer kann jederzeit per Sprachbefehl Status melden („Ich bin bei Schmidt angekommen“, „Kunde sagt 30 Minuten Wartezeit“, „Pause“, „Liefer-Problem“). Der Voice-Assistant transkribiert, extrahiert die strukturierte Information und übergibt sie an die Disposition. Bei Rückfragen kann die Disposition über den gleichen Kanal antworten — der Fahrer hört dann eine kurze, sprachlich generierte Antwort.

Mehrsprachigkeit war eine bewusste Entscheidung. Im Fahrer-Team sprechen 38 % primär nicht Deutsch — Polnisch, Rumänisch und Tschechisch sind die häufigsten Erstsprachen. Die Möglichkeit, in der Muttersprache zu sprechen, war ein wesentlicher Akzeptanzfaktor.

Voice AI im Detail

Die Voice-Pipeline ist technisch interessant, weil sie mehrere Trade-offs balancieren musste: Latenz (Fahrer wollen sofortige Reaktion), Datenschutz (keine Audio-Aufzeichnungen außerhalb des Notwendigen), Mehrsprachigkeit, Robustheit gegen Fahrgeräusch. Unser Setup:

Audio-Erfassung: Push-to-talk in der Fahrer-App, Audio wird komprimiert und an Server gestreamt.
Spracherkennung (STT): Whisper Large v3 selbst gehostet auf Hetzner GPU-Server (Falkenstein). Latenz ca. 350 ms bei 5-Sekunden-Sprach-Eingabe.
Sprach-Verstehen: Mistral Large via La Plateforme EU (Paris) extrahiert strukturierte Information mit JSON-Schema-Output.
Sprach-Ausgabe (TTS): Cartesia für Deutsch (sehr gute Stimmqualität, niedrige Latenz), ElevenLabs für Polnisch/Rumänisch/Tschechisch.
Ende-zu-Ende-Latenz: Ø 1,8 Sekunden vom Sprach-Ende bis zur Antwort-Sprache.
Audio-Speicherung: Audio wird nach Transkription sofort gelöscht. Nur die strukturierte Information bleibt.

Vorgehen & Zeitplan

1Woche 1–2
Discovery + Betriebsrat
Workflow-Analyse mit Disposition, Datenschutz-Klärung, erstes Gespräch mit Betriebsrat.
- →Datenflüsse dokumentiert
- →Betriebsrat-Vorgespräch
- →DSFA
2Woche 3–6
Pilot Tourenoptimierung
OR + ML-Modell auf einer Region (Ruhrgebiet) und 12 LKW als MVP.
- →Optimierer v1
- →Vergleich vs. manuell
- →Akzeptanz Disposition
3Woche 5–8
Pilot Voice AI
Voice-Pipeline auf 8 Pilot-Fahrern mit allen Sprachen, Betriebsvereinbarung wird parallel verhandelt.
- →Voice-MVP
- →Mehrsprachig getestet
- →Betriebsvereinbarung
4Woche 9–20
Roll-out
Skalierung auf alle 40 LKW + alle 95 Fahrer + vollständige Disposition.
- →Vollständige Implementation
- →Schulung + Hyper-Care
- →Produktiv

Ergebnisse nach 12 Monaten

Gemessen über 12 Monate Live-Betrieb (Mai 2025 – Mai 2026)

18 %

weniger Kilometerleistung

25 %

weniger Disposition-Aufwand

12 %

CO₂-Reduktion

88 %

Fahrer-Akzeptanz

Im Detail: Die Gesamtkilometerleistung ist trotz leicht gestiegener Sendungszahl (+4 %) um 18 % gesunken. Der Disposition-Aufwand pro Sendung hat sich um 25 % reduziert — die freigewordene Zeit wird heute für proaktive Kundenkommunikation und Akquise neuer Kunden eingesetzt. Die CO₂-Reduktion (anteilig zur Kilometereinsparung, Diesel-Verbrauch konstant pro km) liegt bei 12 % gegenüber Vorjahr und wird heute aktiv im Vertrieb gegenüber nachhaltigkeits-orientierten Kunden kommuniziert.

Die Voice AI wird von 88 % der Fahrer regelmäßig genutzt. 76 % nutzen sie täglich, 12 % gelegentlich. Die strukturierte Erfassung von Status-Updates liegt aktuell bei 91 % aller Sendungen — ein Wert, der vorher mit WhatsApp/Telefon/SMS undenkbar war.

„Was uns überzeugt hat, war nicht die Technik, sondern dass die Fahrer es nach 2 Wochen freiwillig genutzt haben. Das war ein Hebel, den wir mit klassischen Telematik-Lösungen nie hatten.“
— Geschäftsführer, Mai 2026

Wirtschaftlichkeit

Pilot 27.500 € (8 Wochen, zwei Komponenten parallel)
Implementation 96.000 € (12 Wochen)
Managed Service 5.400 €/Monat
LLM-, Voice- und Routing-Lizenzen ca. 1.400 €/Monat
Hosting Hetzner ca. 620 €/Monat
Smartphones (40 Hardware) 18.000 € einmalig
Interne Aufwände (GF 10 % Zeit, 3 Disponenten je 15 %, IT-Owner 20 %, Betriebsrats-Begleitung) ca. 60.000 €

Total Cost of Ownership Jahr 1: rund 285.000 €. Jährliche Einsparung: 18 % weniger Kilometer (bei rund 4,2 Mio km/Jahr und Vollkosten ~0,82 €/km) ≈ 620.000 €. Disposition-Effizienz nicht für Personalabbau verwendet, sondern in Akquise umgewidmet. Net Benefit Jahr 1: ca. 335.000 €. Vollständige Amortisation aller Aufwände im 7. Live-Monat.

Stolpersteine

Spracherkennung im Fahrgeräusch von 7,5-Tonnern war anfangs schlecht. Im Pilot lag die Erkennungsrate für Deutsch bei 78 %. Wir haben Lärmunterdrückung (RNNoise) vor die STT-Pipeline geschaltet — Erkennungsrate stieg auf 94 %. Lernung: STT-Pipelines im LKW-Kontext brauchen eigene Vorverarbeitung.
Polnischer Dialekt unterschätzt. Whisper hat bei einigen Fahrern aus dem Schlesischen Probleme. Wir haben Sprach-Konfigurations-Profile pro Fahrer eingeführt — nach 2 Wochen Live-Trainingsdaten lag die Erkennung pro Fahrer bei 92 %+.
Disposition empfand Optimierer-Vorschläge anfangs als Bevormundung. Drei Wochen Live-Konflikt. Wir haben das UI angepasst: Statt „System schlägt vor“ jetzt „Vergleichsbasis“ — der Disponent baut weiter selbst, sieht aber die Optimierer-Variante als Sparring. Akzeptanz stieg sofort.
Betriebsrat-Vereinbarung dauerte 7 Wochen länger als geplant. Vier Verhandlungsrunden, viele Detailfragen zur Datenverwendung. Lernung: Betriebsrat von Anfang an einbeziehen, nicht „nachreichen“.

Lessons Learned

Voice schlägt App im operativen Außeneinsatz. LKW-Fahrer wollen nicht tippen. Sprache funktioniert auch mit Akzent, im Fahrgeräusch, mit Handschuhen.
Mehrsprachigkeit ist Akzeptanz-Hebel, nicht Nice-to-have. Wer Fahrer mit polnischer oder rumänischer Erstsprache hat, sollte das nicht „später machen“.
Disponenten-Akzeptanz braucht Sparring-UI, nicht Prescriptive-UI. Erfahrene Disponenten lassen sich nichts vorschreiben — sie lassen sich aber beraten.
Audio-Löschpflicht ist Datenschutz-Standardvorgehen. Wer Audio archiviert, hat ein DSGVO-Großproblem. Sofort transkribieren, sofort löschen.
Lärmunterdrückung vor STT ist Pflicht im Logistik-Kontext. Roh-Audio aus dem LKW ist für Whisper zu schlecht.
Betriebsrat ist Verbündeter, wenn er von Anfang an dabei ist. Wenn er als „Hindernis“ behandelt wird, wird er auch eines.

Wenn Sie einen vergleichbaren Use Case erwägen — Logistik-Optimierung, Voice-AI im Außenbetrieb, Disposition-Entlastung — sprechen Sie uns an. Das kostenfreie Erstgespräch ist die einfachste erste Stufe. Wenn Sie zuerst eine Selbsteinschätzung machen wollen, hilft der KI-Readiness-Check.

Häufig gestellte Fragen

Wie funktioniert die KI-Tourenplanung konkret?

Auf Basis der für den Tag eingeplanten Touren, der LKW-Kapazitäten, Fahrer-Lenkzeiten, Kunden-Zeitfenster und Echtzeit-Verkehrsdaten generiert ein Optimierungsmodell den effizientesten Touren-Vorschlag. Der Disponent sieht den Vorschlag mit Begründung (warum diese Reihenfolge?) und kann manuell anpassen. Hybrid aus klassischer Optimierung (OR-Tools) und ML-basierter Reise-Zeit-Schätzung.

Welche Sprachen versteht die Voice AI?

Aktuell Deutsch (primär), Polnisch, Rumänisch, Tschechisch — die vier häufigsten Erstsprachen im Fahrer-Team. Spracherkennung über Whisper Large v3, Sprach-Generierung über Cartesia (deutsch hochwertig) und ElevenLabs (für Polnisch/Rumänisch). LLM-Antwort über Mistral Large EU.

Was kann der Voice-Assistent für Fahrer?

Status-Updates (Ankunft/Abfahrt/Wartezeit), Tour-Auskunft ('Was ist meine nächste Stelle?'), Liefer-Probleme melden ('Kunde nimmt nicht ab — was tun?'), spontane Pausen-Erinnerung (Lenk- und Ruhezeiten), Standort-Bestätigung. Der Assistent ist kein Allzweck-Bot, sondern eine eng definierte Schnittstelle zur Disposition.

Wie ist der Datenschutz bei der Voice AI gelöst?

Vollständig in Deutschland gehostet. Audio-Streams werden lokal vom Fahrer-Smartphone an einen Hetzner-Server geschickt, dort transkribiert (Whisper läuft selbst gehostet), das Ergebnis wird gespeichert. Audio-Aufnahmen werden nach Transkription sofort gelöscht (kein Audio-Archiv). Fahrer-Einwilligung über Betriebsvereinbarung mit Betriebsrat.

Hat die Akzeptanz bei den Fahrern wirklich funktioniert?

Überraschenderweise sehr. Nach 3 Monaten Live nutzen 88 % der Fahrer den Assistent regelmäßig. Drei Gründe: (1) Sprache funktioniert auch mit Akzent und im Fahrgeräusch sehr gut. (2) Kein Tippen mehr. (3) Polnisch/Rumänisch wurde von einigen Fahrern besonders geschätzt. Sie können in ihrer Muttersprache mit der Disposition kommunizieren.

Wie geht das mit dem Betriebsrat?

Wir haben den Betriebsrat von Anfang an einbezogen. Drei Punkte waren zentral: (1) Keine Voice-Aufzeichnung ohne explizite Einwilligung des Fahrers im Einzelfall. (2) Keine algorithmische Bewertung von Fahrer-Leistung über die Voice AI. (3) Vollständige Transparenz, welche Daten zu welchem Zweck verarbeitet werden. Betriebsvereinbarung wurde nach 7 Wochen unterzeichnet.

Was kostet das?

Pilot 27.500 € (8 Wochen), Implementation 96.000 € (12 Wochen), Managed Service 5.400 €/Monat. LLM- und Voice-Lizenzen ca. 1.400 €/Monat. Hosting Hetzner 620 €/Monat. Smartphones für Fahrer (Hardware) ca. 18.000 € einmalig.

Hat es zu Personalabbau geführt?

Nein. Stattdessen hat die Disposition (3 FTE) 25 % Zeitgewinn — diese wird heute genutzt für proaktive Kundenkommunikation und für die Akquisition neuer Kunden. Geschäftsleitung hat explizit zugesagt: keine Stellen abbauen, sondern bessere Auslastung schaffen.

Kostenfreie KI-Potenzialanalyse

30 Minuten Strategiegespräch mit einem KBD-Berater. Konkret, ehrlich, ohne Verkaufsdruck — wir sagen Ihnen offen, ob KI für Ihren Use Case lohnt.

Analyse Ihrer 3 wichtigsten Prozesse
Konkrete Roadmap mit Aufwandsschätzung
Indikative ROI-Rechnung für Ihren Case

Ergänzend lesenswert

Voice AI Lösung

Unser Voice-AI-Angebot im Detail

KI-Prozessautomatisierung

Methodik allgemein

Weitere Case Studies

Maschinenbau & Großhandel

DSGVO & KI

Inkl. Voice-Datenschutz

KI-Readiness-Check

Reifegrad-Selbsttest

Preise & Pakete

Was kostet KI?