Kurze Geschichte
Bis 2017 dominierten rekurrente neuronale Netze (RNN, LSTM) die Sprachverarbeitung. Sie verarbeiteten Text Wort für Wort sequenziell — was zwei Probleme hatte: schlechte Parallelisierbarkeit (also langsames Training) und Vergessen langer Kontexte.
Im Juni 2017 veröffentlichten Forscher von Google das Paper „Attention Is All You Need“. Sie zeigten, dass eine rein aufmerksamkeitsbasierte Architektur ohne Rekurrenz besser funktioniert. Daraus entstand der Transformer — und in den folgenden Jahren BERT, GPT, T5, Claude, Gemini, Llama. Praktisch alle modernen Sprachmodelle sind Transformer-Varianten.
Self-Attention — der Kern
Self-Attention ist der zentrale Mechanismus des Transformers. Die Idee: bei der Verarbeitung jedes Tokens schaut das Modell nicht nur auf das vorherige Token (wie bei RNN), sondern auf alle anderen Tokens gleichzeitig und gewichtet, welche relevant sind. Mathematisch über drei gelernte Matrizen (Query, Key, Value).
Konsequenzen:
- Parallelisierbar: alle Tokens können gleichzeitig verarbeitet werden — passt perfekt zu GPU-Hardware. Damit wurde Training auf riesigen Datensätzen erst praktikabel.
- Lange Kontexte: jedes Token hat direkten Bezug zu jedem anderen — keine Vergessens-Effekte wie bei RNN.
- Quadratischer Aufwand: N Tokens bedeuten N² Aufmerksamkeits-Berechnungen — das limitiert die Kontextlänge.
Encoder, Decoder, Encoder-Decoder
Drei Varianten der Transformer-Architektur:
- Encoder-only (BERT-Familie): wandelt Text in Vektoren — perfekt für Klassifikation, Embeddings, Suche. Kann nicht generieren.
- Decoder-only (GPT, Claude, Llama, Mistral): generiert Text autoregressiv Token für Token — die Standard-LLM-Architektur 2026.
- Encoder-Decoder (T5, BART): klassischer Übersetzungs- und Zusammenfassungs-Use-Case. Heute weniger relevant, da Decoder-only-Modelle das auch können.
Warum sollten Sie das wissen?
Drei praktische Konsequenzen für Entscheider:
- Kontextfenster-Limits sind echt: wer ein 5.000-seitiges Dokument in einen Prompt stopft, bekommt schlechtere Ergebnisse als ein gutes RAG-System mit nur 5 relevanten Auszügen.
- Multi-Step-Logik ist eine Schwäche: Transformer sind statistische Sprachmodelle, keine Logik-Engines. Komplexe mehrstufige Schlussfolgerungen brauchen Chain-of-Thought-Prompting oder Agent-Architekturen mit Tool-Calling für Logik-Schritte.
- Modell-Größe ist nicht alles: ein größerer Transformer mit schlechterem Training ist schlechter als ein kleinerer mit besserem Training. Die Datenqualität und das Post-Training (RLHF, DPO) machen oft den größeren Unterschied.
Mehr Tiefe: LLM-Glossar, Strategie-Leitfaden.
