Glossar · Modelle & Methoden

    Transformer — die Architektur hinter modernen LLMs

    Transformer ist die neuronale Netzwerk-Architektur, die seit 2017 alle modernen Sprachmodelle dominiert. Verständnis dieser Architektur hilft, Stärken und Schwächen von LLMs einzuordnen — und Marketing-Versprechen besser zu bewerten.

    30 Tage
    zum ersten Pilot
    Ø 40 %
    weniger manuelle Arbeit
    100 %
    Hosting in Deutschland
    DSGVO + EU AI Act
    konform implementiert

    Kurze Geschichte

    Bis 2017 dominierten rekurrente neuronale Netze (RNN, LSTM) die Sprachverarbeitung. Sie verarbeiteten Text Wort für Wort sequenziell — was zwei Probleme hatte: schlechte Parallelisierbarkeit (also langsames Training) und Vergessen langer Kontexte.

    Im Juni 2017 veröffentlichten Forscher von Google das Paper „Attention Is All You Need“. Sie zeigten, dass eine rein aufmerksamkeitsbasierte Architektur ohne Rekurrenz besser funktioniert. Daraus entstand der Transformer — und in den folgenden Jahren BERT, GPT, T5, Claude, Gemini, Llama. Praktisch alle modernen Sprachmodelle sind Transformer-Varianten.

    Self-Attention — der Kern

    Self-Attention ist der zentrale Mechanismus des Transformers. Die Idee: bei der Verarbeitung jedes Tokens schaut das Modell nicht nur auf das vorherige Token (wie bei RNN), sondern auf alle anderen Tokens gleichzeitig und gewichtet, welche relevant sind. Mathematisch über drei gelernte Matrizen (Query, Key, Value).

    Konsequenzen:

    • Parallelisierbar: alle Tokens können gleichzeitig verarbeitet werden — passt perfekt zu GPU-Hardware. Damit wurde Training auf riesigen Datensätzen erst praktikabel.
    • Lange Kontexte: jedes Token hat direkten Bezug zu jedem anderen — keine Vergessens-Effekte wie bei RNN.
    • Quadratischer Aufwand: N Tokens bedeuten N² Aufmerksamkeits-Berechnungen — das limitiert die Kontextlänge.

    Encoder, Decoder, Encoder-Decoder

    Drei Varianten der Transformer-Architektur:

    • Encoder-only (BERT-Familie): wandelt Text in Vektoren — perfekt für Klassifikation, Embeddings, Suche. Kann nicht generieren.
    • Decoder-only (GPT, Claude, Llama, Mistral): generiert Text autoregressiv Token für Token — die Standard-LLM-Architektur 2026.
    • Encoder-Decoder (T5, BART): klassischer Übersetzungs- und Zusammenfassungs-Use-Case. Heute weniger relevant, da Decoder-only-Modelle das auch können.

    Warum sollten Sie das wissen?

    Drei praktische Konsequenzen für Entscheider:

    1. Kontextfenster-Limits sind echt: wer ein 5.000-seitiges Dokument in einen Prompt stopft, bekommt schlechtere Ergebnisse als ein gutes RAG-System mit nur 5 relevanten Auszügen.
    2. Multi-Step-Logik ist eine Schwäche: Transformer sind statistische Sprachmodelle, keine Logik-Engines. Komplexe mehrstufige Schlussfolgerungen brauchen Chain-of-Thought-Prompting oder Agent-Architekturen mit Tool-Calling für Logik-Schritte.
    3. Modell-Größe ist nicht alles: ein größerer Transformer mit schlechterem Training ist schlechter als ein kleinerer mit besserem Training. Die Datenqualität und das Post-Training (RLHF, DPO) machen oft den größeren Unterschied.

    Mehr Tiefe: LLM-Glossar, Strategie-Leitfaden.

    Häufig gestellte Fragen

    Muss ich als Entscheider die Transformer-Architektur verstehen?
    Im Detail nein, im Kern ja. Verständnis hilft, Marketing-Aussagen einzuordnen („Wir nutzen Transformer-Technologie“) und realistische Erwartungen an Modell-Stärken zu haben. Sie verstehen dann auch, warum Kontextfenster-Limits existieren, warum LLMs schlecht in Multi-Step-Logik sind und warum Modell-Größe nicht alles ist.
    Was kommt nach Transformern?
    Aktuelle Forschungs-Alternativen sind Mamba (State Space Models) und Mixture-of-Experts-Architekturen. 2026 dominieren aber noch klar Transformer-Varianten — der Wechsel ist nicht in Sicht. Im Mittelstand spielt es keine Rolle: Sie konsumieren das Modell, nicht die Architektur.
    Warum sind Kontextfenster begrenzt?
    Self-Attention skaliert quadratisch mit der Kontextlänge — doppelte Länge = vierfacher Rechenaufwand. Moderne Optimierungen (FlashAttention, Sliding Window, Sparse Attention) verschieben die Grenze, aber sie bleibt. 2026 sind Kontextfenster bis 1 Mio Tokens (Gemini 1.5 Pro) verfügbar, aber qualitativ nutzbar oft nur bis ~200k.
    Warum heißt es „Attention is all you need“?
    Das ist der Titel des originalen Transformer-Papers von 2017 (Vaswani et al., Google). Damals war es revolutionär, weil rekurrente Netzwerke (RNN, LSTM) der Standard für Sprachverarbeitung waren. Das Paper zeigte, dass Self-Attention allein — ohne Rekurrenz — bessere Ergebnisse bei besserer Parallelisierbarkeit liefert. Daraus entstand der gesamte LLM-Boom.

    Kostenfreie KI-Potenzialanalyse

    30 Minuten Strategiegespräch mit einem KBD-Berater. Konkret, ehrlich, ohne Verkaufsdruck — wir sagen Ihnen offen, ob KI für Ihren Use Case lohnt.

    • Analyse Ihrer 3 wichtigsten Prozesse
    • Konkrete Roadmap mit Aufwandsschätzung
    • Indikative ROI-Rechnung für Ihren Case

    Ergänzend lesenswert