Prompt Engineering | Strukturierte LLM-Eingaben für Unternehmen

Was ist Prompt Engineering?

Prompt Engineering ist die systematische Gestaltung der Eingabe an ein LLM, um konsistent gewünschte Ausgaben zu erhalten. Anders als beim Suchmaschinen-Suchen ist die Antwort eines LLMs hochgradig formulierungs-sensitiv: dieselbe Frage anders gestellt liefert oft komplett unterschiedliche Antworten in Format, Detailtiefe und Genauigkeit.

Im Spielwiesen-Modus bei ChatGPT mag das egal sein. Im produktiven Unternehmens-System (z. B. einem Wissens-Chatbot, der 5.000 Mitarbeiter bedient) entscheidet die Prompt-Qualität über Akzeptanz, Vertrauen und Wirtschaftlichkeit der Lösung.

Anatomie eines guten System-Prompts

Ein produktionsreifer System-Prompt enthält typischerweise sechs Abschnitte:

Rolle: wer ist das Modell? („Du bist ein Wissensassistent für die KBD-Mitarbeiter…“)
Kontext: in welchem System läuft das? Welche Annahmen gelten? („Du bekommst Auszüge aus internen Dokumenten…“)
Aufgabe: was soll konkret getan werden? („Beantworte die Frage präzise und basierend auf den gelieferten Quellen…“)
Output-Format: wie soll die Antwort aussehen? („Markdown mit Quellenangaben in eckigen Klammern…“)
Eskalations-Regeln: wann nicht antworten? („Wenn die Quellen die Antwort nicht enthalten, sage explizit, dass du es nicht weißt — niemals raten.“)
Few-Shot-Beispiele: 2–5 konkrete Input-Output-Paare als Anker.

Wichtige Patterns

Diese Muster funktionieren in Mittelstands-Use-Cases zuverlässig:

Chain-of-Thought: „Denke Schritt für Schritt nach, bevor du antwortest.“ Erhöht Genauigkeit bei komplexen Schlussfolgerungen.
Output Constraints: JSON-Schema oder XML-Tags vorgeben. Erzwingt parsbare Outputs.
Self-Critique: „Überprüfe deine Antwort auf Vollständigkeit und Quellen-Treue, bevor du sie ausgibst.“
Negative Examples: „NICHT-Verhalten“ explizit zeigen — was das Modell vermeiden soll.
Persona Anchor: klare Rolle inklusive Tonfall („nüchtern, professionell, ohne Marketing-Sprache“).
Refusal Pattern: exakte Formulierung, was zu antworten ist, wenn etwas außerhalb des Scopes liegt.

Anti-Patterns

Häufige Fehler, die wir in der Praxis sehen:

Höflichkeits-Floskeln im Prompt: „Bitte sei so nett und beantworte…“ — kostet Tokens, bringt nichts.
Widersprüche: „Antworte ausführlich aber kurz“ — das Modell rät, was Sie wirklich wollen.
Implizite Annahmen: „Antworte wie ein Experte“ — was ist ein Experte? Welche Domäne? Welcher Tonfall?
Keine Eskalation: wenn nicht klar ist, was bei Wissenslücken passiert, halluziniert das Modell.
Versionslosigkeit: Prompts werden in Code-Kommentaren oder Slack-Nachrichten gepflegt — nicht versioniert.
Keine Eval: ein „besserer“ Prompt wird subjektiv bewertet, nicht datenbasiert.

Wie teste ich Prompts professionell?

Eine produktive Prompt-Pipeline braucht eine Eval-Suite: ein Datensatz mit 100–500 typischen Anfragen + Goldstandard-Antworten. Bei jeder Prompt-Änderung läuft die Suite automatisch und misst:

Faithfulness: stimmt die Antwort mit den Quellen überein?
Relevanz: beantwortet die Antwort die gestellte Frage?
Format-Konformität: wird das geforderte Output-Format eingehalten?
Refusal-Rate: wird bei Out-of-Scope korrekt abgelehnt?
Latenz & Kosten: Token-Verbrauch und Antwortzeit pro Anfrage.

Tools wie Promptfoo, LangSmith oder Braintrust unterstützen diese Eval-Workflows. Mehr in unserer ROI-Methodik oder direkt in der Wissensmanagement-Praxis.

Häufig gestellte Fragen

Ist Prompt Engineering eine seriöse Disziplin oder Hype?

Seriöse Disziplin. In jedem Produktiv-System bestimmt die Prompt-Qualität 30–60 % der Output-Qualität. Im Unternehmen sollten Sie Prompts wie Produktionscode behandeln: versioniert, dokumentiert, automatisiert getestet. „Wir basteln mal schnell einen Prompt“ funktioniert nur in der Spielwiese, nicht im Live-Betrieb.

Wie lang sollte ein System-Prompt sein?

Faustregel: so kurz wie möglich, so lang wie nötig. Typischer produktiver System-Prompt im Mittelstand: 300–1.500 Tokens. Sehr lange Prompts (>3.000 Tokens) erhöhen die Inferenzkosten linear und verschlechtern oft die Qualität, weil das Modell relevante Stellen schwerer fokussiert.

Sind Prompts für Claude und GPT kompatibel?

Konzeptionell ja, im Detail nein. Claude reagiert besser auf XML-Strukturen und explizite Rollenanweisungen. GPT-4o reagiert besser auf nummerierte Schritte und JSON-Schemas. Wer Modell-agnostisch bleiben will, hält Prompts strukturiert (Markdown), aber moderiert in der Detailtiefe — beim Modell-Switch braucht es immer eine Eval-Runde.

Was ist Few-Shot vs. Zero-Shot Prompting?

Zero-Shot: Sie geben dem Modell nur die Aufgabe, ohne Beispiele. Funktioniert für einfache Aufgaben mit modernen Top-Modellen erstaunlich oft. Few-Shot: Sie geben 3–7 Beispiele für gewünschten Input-Output mit. Erhöht die Konsistenz drastisch, kostet mehr Tokens. Standardpfad in produktiven Systemen ist Few-Shot mit 3–5 Beispielen.

Kostenfreie KI-Potenzialanalyse

30 Minuten Strategiegespräch mit einem KBD-Berater. Konkret, ehrlich, ohne Verkaufsdruck — wir sagen Ihnen offen, ob KI für Ihren Use Case lohnt.

Analyse Ihrer 3 wichtigsten Prozesse
Konkrete Roadmap mit Aufwandsschätzung
Indikative ROI-Rechnung für Ihren Case

Ergänzend lesenswert

LLM

Wofür Prompts sind

Halluzination

Mit Prompts reduzieren

Fine-Tuning

Die nächste Stufe

ChatGPT im Unternehmen

Prompts in der Praxis