Glossar · Praxis

    Halluzination — wenn das LLM Fakten erfindet

    Eine Halluzination ist eine plausibel klingende, aber faktisch falsche LLM-Ausgabe. Sie ist die größte Vertrauenskrise produktiver KI-Systeme — und der häufigste Grund, warum Unternehmen Pilotprojekte stoppen. Mit den richtigen Mechanismen aber gut beherrschbar.

    30 Tage
    zum ersten Pilot
    Ø 40 %
    weniger manuelle Arbeit
    100 %
    Hosting in Deutschland
    DSGVO + EU AI Act
    konform implementiert

    Was ist eine Halluzination?

    Eine Halluzination ist eine LLM-Ausgabe, die überzeugend formuliert ist, aber faktisch nicht stimmt. Beispiele aus der Praxis: ein erfundenes Gesetzes-Aktenzeichen, eine erfundene Studien-Quelle, ein erfundener Mitarbeitername in einer ServiceNow-Recherche, ein falsch berechneter Rabatt. Das tückische: Halluzinationen klingen genauso souverän wie korrekte Antworten — Nutzer erkennen sie ohne explizite Verifikation oft nicht.

    Warum passiert das?

    LLMs generieren Text, indem sie das wahrscheinlichste nächste Token vorhersagen. Sie haben kein internes Konzept von „wahr“ oder „falsch“ — sondern nur von „plausibel“. Wenn das Modell unter Druck steht, eine Antwort zu geben (was der Default ist), erfindet es im Zweifel etwas, das gut klingt. Drei Hauptursachen:

    • Wissens-Lücken: die korrekte Antwort liegt nicht in den Trainingsdaten oder dem Kontext. Das Modell rät, statt zuzugeben, dass es nicht weiß.
    • Pattern-Completion-Bias: wenn ein Format suggeriert (z. B. „§ 23 Abs. 5 BGB“), erfindet das Modell vermeintlich passende Aktenzeichen, weil sie ins Muster passen.
    • Prompt-Schwächen: wenn der Prompt nicht explizit erlaubt, „ich weiß es nicht“ zu sagen, wird das Modell trotzdem antworten.

    Schutzmechanismen

    Vier Mechanismen, kombiniert eingesetzt, reduzieren die Halluzinationsrate in der Praxis auf unter 1 %:

    1. RAG mit Quellenpflicht: das LLM antwortet nur basierend auf gelieferten Dokumenten, nicht aus Allgemeinwissen. Quellen werden mit der Antwort ausgeliefert.
    2. Strenger Refusal-Prompt: System-Prompt-Klausel: „Wenn die Quellen die Antwort nicht enthalten, sage explizit, dass du es nicht weißt — niemals raten.“ Klingt simpel, ist effektiv.
    3. Faithfulness-Eval: automatisierte Pipeline prüft jede generierte Antwort gegen die Quellen — bei zu niedrigem Faithfulness-Score wird die Antwort verworfen oder zur menschlichen Prüfung markiert.
    4. Tool-Calling für Fakten: Zahlen, Termine, Quellenangaben kommen niemals aus LLM-Generation. Stattdessen ruft das LLM ein Tool (Taschenrechner, Datumsfunktion, Suchindex) und bekommt das Ergebnis als Token.

    Monitoring im laufenden Betrieb

    Auch das beste System driftet. Drei Monitoring-Komponenten in der Produktion:

    • Faithfulness-Score als Live-Metrik in jedem Antwort-Logging — Trend-Beobachtung über Wochen.
    • Stichproben-Audit: wöchentlich werden 50 zufällige Antworten manuell auf Halluzinationen geprüft. Aufwand: ca. 1 Stunde, hoher Erkenntnisgewinn.
    • Nutzer-Feedback-Mechanismus: in der UI ein Daumen-runter mit Kommentar-Feld. Klingt banal, fängt 80 % der Live-Halluzinationen.

    Akzeptierbares Restrisiko

    Null Halluzination ist unrealistisch. Realistisch ist <1 % bei Mensch-im-Loop-Use-Cases (z. B. Vertriebs-Vorschläge, die ein Mensch freigibt) und <0,1 % bei kritischen End-User-Use-Cases (z. B. Kunden-Chat ohne Filter). Bei Zahlen oder Compliance-Aussagen geht das Akzeptanzniveau gegen Null — diese Fragen werden gar nicht erst per LLM-Generation gelöst, sondern per Tool-Calling oder klassischer Logik.

    Mehr in unseren Pillar-Inhalten: rechtssichere KI und EU AI Act.

    Häufig gestellte Fragen

    Wie hoch ist die Halluzinationsrate moderner LLMs?
    Stark abhängig vom Use Case. Bei freier Generation („erzähle mir über…“) können moderne Top-Modelle 5–15 % halluzinierte Fakten produzieren. Bei RAG-basierten Antworten mit guten Schutzmechanismen sinkt die Rate auf <1 % — bei Faithfulness-Eval-Pipelines messbar. Wichtiger als die absolute Rate ist, ob halluzinierte Antworten erkannt und nicht ausgeliefert werden.
    Welche Use Cases sind am gefährdetsten?
    Drei Risiko-Kategorien: (1) Faktenintensive Fragen ohne Wissensbasis (LLM rät), (2) numerische Antworten (LLMs sind keine Taschenrechner), (3) zitierfähige Quellenangaben (LLMs erfinden plausibel klingende, aber nicht-existente Quellen). Tipp: für solche Aufgaben immer Tool-Calling (Taschenrechner, Such-API) statt LLM-eigene Generation.
    Reduziert ein größeres Modell Halluzinationen?
    Etwas, aber weniger als oft angenommen. Claude 3.5 Sonnet halluziniert spürbar weniger als Mistral Small, aber die Architektur (RAG, Eskalations-Regeln, Eval) hat einen größeren Hebel als die Modellwahl. Wer auf Modellwahl als Hauptlösung setzt, ignoriert die wahren Stellschrauben.
    Was ist eine Faithfulness-Eval?
    Ein automatisierter Test, der prüft, ob die LLM-Antwort wirklich aus den gelieferten Quellen kommt — nicht aus LLM-Allgemeinwissen. Technisch: ein zweites LLM oder eine NLI-basierte Modell-Pipeline vergleicht jeden Satz der Antwort mit den Quellen und markiert nicht-belegte Behauptungen. Standard-Komponente in produktiven RAG-Systemen.

    Kostenfreie KI-Potenzialanalyse

    30 Minuten Strategiegespräch mit einem KBD-Berater. Konkret, ehrlich, ohne Verkaufsdruck — wir sagen Ihnen offen, ob KI für Ihren Use Case lohnt.

    • Analyse Ihrer 3 wichtigsten Prozesse
    • Konkrete Roadmap mit Aufwandsschätzung
    • Indikative ROI-Rechnung für Ihren Case

    Ergänzend lesenswert