KI-Halluzination | Wenn LLMs falsche Antworten geben

Was ist eine Halluzination?

Eine Halluzination ist eine LLM-Ausgabe, die überzeugend formuliert ist, aber faktisch nicht stimmt. Beispiele aus der Praxis: ein erfundenes Gesetzes-Aktenzeichen, eine erfundene Studien-Quelle, ein erfundener Mitarbeitername in einer ServiceNow-Recherche, ein falsch berechneter Rabatt. Das tückische: Halluzinationen klingen genauso souverän wie korrekte Antworten — Nutzer erkennen sie ohne explizite Verifikation oft nicht.

Warum passiert das?

LLMs generieren Text, indem sie das wahrscheinlichste nächste Token vorhersagen. Sie haben kein internes Konzept von „wahr“ oder „falsch“ — sondern nur von „plausibel“. Wenn das Modell unter Druck steht, eine Antwort zu geben (was der Default ist), erfindet es im Zweifel etwas, das gut klingt. Drei Hauptursachen:

Wissens-Lücken: die korrekte Antwort liegt nicht in den Trainingsdaten oder dem Kontext. Das Modell rät, statt zuzugeben, dass es nicht weiß.
Pattern-Completion-Bias: wenn ein Format suggeriert (z. B. „§ 23 Abs. 5 BGB“), erfindet das Modell vermeintlich passende Aktenzeichen, weil sie ins Muster passen.
Prompt-Schwächen: wenn der Prompt nicht explizit erlaubt, „ich weiß es nicht“ zu sagen, wird das Modell trotzdem antworten.

Schutzmechanismen

Vier Mechanismen, kombiniert eingesetzt, reduzieren die Halluzinationsrate in der Praxis auf unter 1 %:

RAG mit Quellenpflicht: das LLM antwortet nur basierend auf gelieferten Dokumenten, nicht aus Allgemeinwissen. Quellen werden mit der Antwort ausgeliefert.
Strenger Refusal-Prompt: System-Prompt-Klausel: „Wenn die Quellen die Antwort nicht enthalten, sage explizit, dass du es nicht weißt — niemals raten.“ Klingt simpel, ist effektiv.
Faithfulness-Eval: automatisierte Pipeline prüft jede generierte Antwort gegen die Quellen — bei zu niedrigem Faithfulness-Score wird die Antwort verworfen oder zur menschlichen Prüfung markiert.
Tool-Calling für Fakten: Zahlen, Termine, Quellenangaben kommen niemals aus LLM-Generation. Stattdessen ruft das LLM ein Tool (Taschenrechner, Datumsfunktion, Suchindex) und bekommt das Ergebnis als Token.

Monitoring im laufenden Betrieb

Auch das beste System driftet. Drei Monitoring-Komponenten in der Produktion:

Faithfulness-Score als Live-Metrik in jedem Antwort-Logging — Trend-Beobachtung über Wochen.
Stichproben-Audit: wöchentlich werden 50 zufällige Antworten manuell auf Halluzinationen geprüft. Aufwand: ca. 1 Stunde, hoher Erkenntnisgewinn.
Nutzer-Feedback-Mechanismus: in der UI ein Daumen-runter mit Kommentar-Feld. Klingt banal, fängt 80 % der Live-Halluzinationen.

Akzeptierbares Restrisiko

Null Halluzination ist unrealistisch. Realistisch ist <1 % bei Mensch-im-Loop-Use-Cases (z. B. Vertriebs-Vorschläge, die ein Mensch freigibt) und <0,1 % bei kritischen End-User-Use-Cases (z. B. Kunden-Chat ohne Filter). Bei Zahlen oder Compliance-Aussagen geht das Akzeptanzniveau gegen Null — diese Fragen werden gar nicht erst per LLM-Generation gelöst, sondern per Tool-Calling oder klassischer Logik.

Mehr in unseren Pillar-Inhalten: rechtssichere KI und EU AI Act.

Häufig gestellte Fragen

Wie hoch ist die Halluzinationsrate moderner LLMs?

Stark abhängig vom Use Case. Bei freier Generation („erzähle mir über…“) können moderne Top-Modelle 5–15 % halluzinierte Fakten produzieren. Bei RAG-basierten Antworten mit guten Schutzmechanismen sinkt die Rate auf <1 % — bei Faithfulness-Eval-Pipelines messbar. Wichtiger als die absolute Rate ist, ob halluzinierte Antworten erkannt und nicht ausgeliefert werden.

Welche Use Cases sind am gefährdetsten?

Drei Risiko-Kategorien: (1) Faktenintensive Fragen ohne Wissensbasis (LLM rät), (2) numerische Antworten (LLMs sind keine Taschenrechner), (3) zitierfähige Quellenangaben (LLMs erfinden plausibel klingende, aber nicht-existente Quellen). Tipp: für solche Aufgaben immer Tool-Calling (Taschenrechner, Such-API) statt LLM-eigene Generation.

Reduziert ein größeres Modell Halluzinationen?

Etwas, aber weniger als oft angenommen. Claude 3.5 Sonnet halluziniert spürbar weniger als Mistral Small, aber die Architektur (RAG, Eskalations-Regeln, Eval) hat einen größeren Hebel als die Modellwahl. Wer auf Modellwahl als Hauptlösung setzt, ignoriert die wahren Stellschrauben.

Was ist eine Faithfulness-Eval?

Ein automatisierter Test, der prüft, ob die LLM-Antwort wirklich aus den gelieferten Quellen kommt — nicht aus LLM-Allgemeinwissen. Technisch: ein zweites LLM oder eine NLI-basierte Modell-Pipeline vergleicht jeden Satz der Antwort mit den Quellen und markiert nicht-belegte Behauptungen. Standard-Komponente in produktiven RAG-Systemen.

Kostenfreie KI-Potenzialanalyse

30 Minuten Strategiegespräch mit einem KBD-Berater. Konkret, ehrlich, ohne Verkaufsdruck — wir sagen Ihnen offen, ob KI für Ihren Use Case lohnt.

Analyse Ihrer 3 wichtigsten Prozesse
Konkrete Roadmap mit Aufwandsschätzung
Indikative ROI-Rechnung für Ihren Case

Ergänzend lesenswert

LLM

Was halluziniert?

RAG

Reduziert Halluzinationen

Prompt Engineering

Erste Verteidigungslinie

Rechtssichere KI

Compliance-Aspekte