Was ist eine Halluzination?
Eine Halluzination ist eine LLM-Ausgabe, die überzeugend formuliert ist, aber faktisch nicht stimmt. Beispiele aus der Praxis: ein erfundenes Gesetzes-Aktenzeichen, eine erfundene Studien-Quelle, ein erfundener Mitarbeitername in einer ServiceNow-Recherche, ein falsch berechneter Rabatt. Das tückische: Halluzinationen klingen genauso souverän wie korrekte Antworten — Nutzer erkennen sie ohne explizite Verifikation oft nicht.
Warum passiert das?
LLMs generieren Text, indem sie das wahrscheinlichste nächste Token vorhersagen. Sie haben kein internes Konzept von „wahr“ oder „falsch“ — sondern nur von „plausibel“. Wenn das Modell unter Druck steht, eine Antwort zu geben (was der Default ist), erfindet es im Zweifel etwas, das gut klingt. Drei Hauptursachen:
- Wissens-Lücken: die korrekte Antwort liegt nicht in den Trainingsdaten oder dem Kontext. Das Modell rät, statt zuzugeben, dass es nicht weiß.
- Pattern-Completion-Bias: wenn ein Format suggeriert (z. B. „§ 23 Abs. 5 BGB“), erfindet das Modell vermeintlich passende Aktenzeichen, weil sie ins Muster passen.
- Prompt-Schwächen: wenn der Prompt nicht explizit erlaubt, „ich weiß es nicht“ zu sagen, wird das Modell trotzdem antworten.
Schutzmechanismen
Vier Mechanismen, kombiniert eingesetzt, reduzieren die Halluzinationsrate in der Praxis auf unter 1 %:
- RAG mit Quellenpflicht: das LLM antwortet nur basierend auf gelieferten Dokumenten, nicht aus Allgemeinwissen. Quellen werden mit der Antwort ausgeliefert.
- Strenger Refusal-Prompt: System-Prompt-Klausel: „Wenn die Quellen die Antwort nicht enthalten, sage explizit, dass du es nicht weißt — niemals raten.“ Klingt simpel, ist effektiv.
- Faithfulness-Eval: automatisierte Pipeline prüft jede generierte Antwort gegen die Quellen — bei zu niedrigem Faithfulness-Score wird die Antwort verworfen oder zur menschlichen Prüfung markiert.
- Tool-Calling für Fakten: Zahlen, Termine, Quellenangaben kommen niemals aus LLM-Generation. Stattdessen ruft das LLM ein Tool (Taschenrechner, Datumsfunktion, Suchindex) und bekommt das Ergebnis als Token.
Monitoring im laufenden Betrieb
Auch das beste System driftet. Drei Monitoring-Komponenten in der Produktion:
- Faithfulness-Score als Live-Metrik in jedem Antwort-Logging — Trend-Beobachtung über Wochen.
- Stichproben-Audit: wöchentlich werden 50 zufällige Antworten manuell auf Halluzinationen geprüft. Aufwand: ca. 1 Stunde, hoher Erkenntnisgewinn.
- Nutzer-Feedback-Mechanismus: in der UI ein Daumen-runter mit Kommentar-Feld. Klingt banal, fängt 80 % der Live-Halluzinationen.
Akzeptierbares Restrisiko
Null Halluzination ist unrealistisch. Realistisch ist <1 % bei Mensch-im-Loop-Use-Cases (z. B. Vertriebs-Vorschläge, die ein Mensch freigibt) und <0,1 % bei kritischen End-User-Use-Cases (z. B. Kunden-Chat ohne Filter). Bei Zahlen oder Compliance-Aussagen geht das Akzeptanzniveau gegen Null — diese Fragen werden gar nicht erst per LLM-Generation gelöst, sondern per Tool-Calling oder klassischer Logik.
Mehr in unseren Pillar-Inhalten: rechtssichere KI und EU AI Act.
