Worauf wir vergleichen
Anbieter-Vergleiche scheitern oft an drei Dingen: veralteten Benchmarks, Vermischung von Modell-Generationen und fehlendem Praxisbezug. Unser Vergleich nutzt sechs Kriterien, die wir aus über 40 KBD-Mandaten als entscheidend identifiziert haben:
- Reasoning-Qualität: wie gut löst das Modell mehrstufige Aufgaben? Gemessen an MMLU-Pro, GPQA und unseren eigenen Mittelstands-Benchmarks.
- Kontextfenster: wie viel Text passt in eine Anfrage? Relevant für lange Dokumente, ganze Codebasen, längere Gespräche.
- Function Calling: wie zuverlässig steuert das Modell externe Tools? Kritisch für Agenten-Workflows.
- Preis-Niveau: Inferenz-Kosten pro 1 Mio. Token (Input + Output, gewichtet).
- EU-Hosting: ist eine EU-Region verfügbar mit AVV und No-Training-Garantie?
- Latenz: Antwortzeit bei typischen Anfragen — relevant bei Echtzeit-Use-Cases (Voice, Chat).
Die Vergleichs-Matrix
OpenAI (GPT-4o, GPT-4o-mini, o1)
OpenAI bleibt 2026 der Innovations-Leader bei Function Calling, Multimodalität (Bild, Audio, Video) und Realtime-API für Voice-Anwendungen. GPT-4o ist die Allround-Empfehlung, GPT-4o-mini für günstige Klassifikations- und Extraktions-Tasks, o1 für reasoning-lastige Aufgaben.
DSGVO: Azure OpenAI Service in Frankfurt und Schweden, mit AVV und „Zero Data Retention“ konfigurierbar. Komplett produktionsreif für deutschen Mittelstand. Schwäche: stärkste Marken-Bindung — Wechsel später aufwändig, wenn Function-Calling-Schemata genutzt werden.
Anthropic (Claude 3.5 Sonnet, Claude Haiku)
Claude 3.5 Sonnet ist seit 2024 unser Standardmodell für Wissens-RAG: weniger Halluzinationen als GPT-4o (gemessen in unseren Faithfulness-Evals), bessere Konsistenz bei langen Kontexten, klare Antwortstrukturen. Claude Haiku als günstige Variante für Klassifikation und einfache Extraktion.
Über AWS Bedrock in Frankfurt und Irland verfügbar, mit AVV und ohne Trainingsnutzung Ihrer Daten. Schwäche: weniger Multimodal-Optionen als OpenAI/Google, kein Audio/Voice-Native-Support.
Mistral (Large 2, Small, Codestral)
Europäischer Anbieter mit Hauptsitz in Paris und Hosting in der EU. Die natürliche Wahl für Mandate mit hohem DSGVO-Anspruch und politisch motivierter EU-Souveränitätspriorität (öffentlicher Sektor, kritische Infrastruktur). Mistral Large 2 hält bei Reasoning mit Claude/GPT-4o nicht ganz mit, ist aber für 80 % der Mittelstands-Cases mehr als ausreichend.
Preis-Niveau ist 30–50 % unter den US-Anbietern. On-Premise-Lizenzen verfügbar — für Hochsicherheits-Setups attraktiv. Schwäche: Function Calling und Multimodalität sind hinter den US-Modellen zurück, holen aber 2026 stark auf.
Google (Gemini 1.5 Pro, Gemini Flash)
Stärkster Differenzierer: 1 Million Token Kontextfenster bei Gemini 1.5 Pro — andere Modelle liegen bei 128k–200k. Konkret: Sie können einen 1.500-seitigen Vertrag oder 50.000 Zeilen Code in einer einzigen Anfrage analysieren. Für rechtliche Due-Diligence, Code-Audits, Vertrags-Reviews kein Konkurrent in der Tiefe.
Multi-Region-Hosting in der EU verfügbar. Über Vertex AI mit AVV produktionsreif. Schwäche: Function Calling weniger ausgereift als OpenAI; Tool-Ökosystem (Frameworks, Libraries) noch dünner als bei OpenAI/Anthropic.
Meta (Llama 3.1 70B, Llama 3.1 405B)
Open Weight — Sie laden die Modell-Gewichte herunter und hosten sie selbst. Die einzige echte Option für Air-Gapped, On-Premise und vollständige Datenkontrolle. In Banken, Versicherungen, Verteidigung und öffentlichem Sektor zunehmend Standard.
Hardware-Anforderungen: Llama 3.1 70B läuft auf 2× H100 GPUs (oder 1× H200), 405B braucht 8× H100. Hosting-Kosten EU-Cloud: 4.000–18.000 €/Monat je nach Modell und Auslastung. Lohnt ab moderaten Volumina deutlich gegenüber Token-Pricing — und gibt Ihnen strategische Unabhängigkeit.
KBD-Empfehlung — die Multi-Modell-Strategie
Wir empfehlen seit 2025 systematisch kein Single-Vendor-Setup, sondern eine Multi-Modell-Architektur:
- Standard-Wissens-RAG: Claude 3.5 Sonnet (Anthropic via AWS Bedrock Frankfurt).
- Agenten-Workflows mit Tools: GPT-4o (Azure OpenAI Frankfurt).
- Klassifikation & Extraktion: Mistral Small oder GPT-4o-mini.
- Voice / Realtime: GPT-4o Realtime API.
- On-Premise / Air-Gapped: Llama 3.1 70B self-hosted.
- Sehr lange Dokumente: Gemini 1.5 Pro.
Architektonisch realisiert über ein Adapter-Pattern, das Modell-Aufrufe abstrahiert. Wechsel des Modells ist dann ein Konfigurations-Change, kein Refactor. Implementierungsdetails im Pilotprojekt oder im Discovery-Workshop.