Was ist Prompt Engineering?
Prompt Engineering ist die systematische Gestaltung der Eingabe an ein LLM, um konsistent gewünschte Ausgaben zu erhalten. Anders als beim Suchmaschinen-Suchen ist die Antwort eines LLMs hochgradig formulierungs-sensitiv: dieselbe Frage anders gestellt liefert oft komplett unterschiedliche Antworten in Format, Detailtiefe und Genauigkeit.
Im Spielwiesen-Modus bei ChatGPT mag das egal sein. Im produktiven Unternehmens-System (z. B. einem Wissens-Chatbot, der 5.000 Mitarbeiter bedient) entscheidet die Prompt-Qualität über Akzeptanz, Vertrauen und Wirtschaftlichkeit der Lösung.
Anatomie eines guten System-Prompts
Ein produktionsreifer System-Prompt enthält typischerweise sechs Abschnitte:
- Rolle: wer ist das Modell? („Du bist ein Wissensassistent für die KBD-Mitarbeiter…“)
- Kontext: in welchem System läuft das? Welche Annahmen gelten? („Du bekommst Auszüge aus internen Dokumenten…“)
- Aufgabe: was soll konkret getan werden? („Beantworte die Frage präzise und basierend auf den gelieferten Quellen…“)
- Output-Format: wie soll die Antwort aussehen? („Markdown mit Quellenangaben in eckigen Klammern…“)
- Eskalations-Regeln: wann nicht antworten? („Wenn die Quellen die Antwort nicht enthalten, sage explizit, dass du es nicht weißt — niemals raten.“)
- Few-Shot-Beispiele: 2–5 konkrete Input-Output-Paare als Anker.
Wichtige Patterns
Diese Muster funktionieren in Mittelstands-Use-Cases zuverlässig:
- Chain-of-Thought: „Denke Schritt für Schritt nach, bevor du antwortest.“ Erhöht Genauigkeit bei komplexen Schlussfolgerungen.
- Output Constraints: JSON-Schema oder XML-Tags vorgeben. Erzwingt parsbare Outputs.
- Self-Critique: „Überprüfe deine Antwort auf Vollständigkeit und Quellen-Treue, bevor du sie ausgibst.“
- Negative Examples: „NICHT-Verhalten“ explizit zeigen — was das Modell vermeiden soll.
- Persona Anchor: klare Rolle inklusive Tonfall („nüchtern, professionell, ohne Marketing-Sprache“).
- Refusal Pattern: exakte Formulierung, was zu antworten ist, wenn etwas außerhalb des Scopes liegt.
Anti-Patterns
Häufige Fehler, die wir in der Praxis sehen:
- Höflichkeits-Floskeln im Prompt: „Bitte sei so nett und beantworte…“ — kostet Tokens, bringt nichts.
- Widersprüche: „Antworte ausführlich aber kurz“ — das Modell rät, was Sie wirklich wollen.
- Implizite Annahmen: „Antworte wie ein Experte“ — was ist ein Experte? Welche Domäne? Welcher Tonfall?
- Keine Eskalation: wenn nicht klar ist, was bei Wissenslücken passiert, halluziniert das Modell.
- Versionslosigkeit: Prompts werden in Code-Kommentaren oder Slack-Nachrichten gepflegt — nicht versioniert.
- Keine Eval: ein „besserer“ Prompt wird subjektiv bewertet, nicht datenbasiert.
Wie teste ich Prompts professionell?
Eine produktive Prompt-Pipeline braucht eine Eval-Suite: ein Datensatz mit 100–500 typischen Anfragen + Goldstandard-Antworten. Bei jeder Prompt-Änderung läuft die Suite automatisch und misst:
- Faithfulness: stimmt die Antwort mit den Quellen überein?
- Relevanz: beantwortet die Antwort die gestellte Frage?
- Format-Konformität: wird das geforderte Output-Format eingehalten?
- Refusal-Rate: wird bei Out-of-Scope korrekt abgelehnt?
- Latenz & Kosten: Token-Verbrauch und Antwortzeit pro Anfrage.
Tools wie Promptfoo, LangSmith oder Braintrust unterstützen diese Eval-Workflows. Mehr in unserer ROI-Methodik oder direkt in der Wissensmanagement-Praxis.
