Was ist ein Embedding?
Stellen Sie sich vor, jedes Wort und jeder Satz Ihres Unternehmens-Wissens bekommt eine eindeutige Position in einem hochdimensionalen Raum. Ähnliche Inhalte landen nahe beieinander, unterschiedliche weit auseinander. Diese „Position“ ist mathematisch eine Liste von 768 bis 3072 Zahlen — der Embedding-Vektor.
Konkret: das Wort „Auftrag“ und das Wort „Bestellung“ haben sehr ähnliche Embedding-Vektoren — auch wenn die Buchstaben komplett anders sind. Das ist die Magie: semantische Ähnlichkeit wird zu mathematischer Nähe. Damit lassen sich Bedeutungen vergleichen, nicht nur Buchstaben.
Warum braucht man Vektoren?
Klassische Volltext-Suche (z. B. SQL LIKE oder Elasticsearch BM25) findet exakt die Worte, die in der Anfrage vorkommen. Wer „Reklamationsprozess“ sucht, findet keine Dokumente über „Beschwerdeverfahren“ — obwohl es das Gleiche ist. Embeddings lösen genau dieses Problem.
Bei einer Suchanfrage wird die Frage selbst in einen Embedding-Vektor gewandelt und mit allen gespeicherten Vektoren verglichen (typischerweise via Kosinus-Ähnlichkeit). Die Top-N ähnlichsten werden zurückgegeben — egal ob die exakten Wörter vorkommen. Das ist die Basis von RAG.
Embedding-Modelle 2026
Drei Modell-Familien dominieren:
- OpenAI text-embedding-3 (small/large): einfache API, sehr gute Qualität, 1536–3072 Dimensionen. Standard-Wahl für die meisten Cases.
- Cohere embed-multilingual-v3: hervorragend für mehrsprachige Daten, 1024 Dimensionen, kompakt.
- BGE-M3 (Open Source): auf eigener Hardware betreibbar, 768 Dimensionen, hohe Qualität für deutsch.
Für deutsche Mittelstands-Cases (gemischte Sprache, normale Dokumentvielfalt) sind alle drei produktionsreif. Wir empfehlen Standardpfad text-embedding-3-large, On-Prem-Pfad BGE-M3.
Qualitätsfaktoren
Drei Stellschrauben, die die Embedding-Qualität entscheiden:
- Modell-Größe: größere Modelle haben mehr Differenzierung, brauchen aber mehr Rechenzeit und Speicher.
- Trainingsdaten-Sprache: ein primär englisch trainiertes Modell wird deutsche Nuancen schlechter abbilden.
- Domänen-Anpassung: für hochspezialisierte Domänen (Recht, Medizin) lohnt manchmal Fine-Tuning des Embedding-Modells — selten, aber möglich.
Was kosten Embeddings?
Sehr günstig im Vergleich zur LLM-Inferenz. Beispielrechnung für eine Wissensbasis mit 100.000 Dokumenten à 5 Chunks à 500 Tokens = 250 Mio Tokens:
- OpenAI text-embedding-3-large: 0,13 € × 250 = 32,50 € einmalig.
- Cohere embed-multilingual-v3: 0,10 € × 250 = 25 € einmalig.
- BGE-M3 self-hosted: ~2 Stunden auf einer A10G GPU = ca. 4 €.
Im Betrieb fallen nur die Embeddings für neue Dokumente und Suchanfragen an — meist im Bereich weniger Euro pro Monat. Embedding-Kosten sind in der RAG-Gesamtrechnung praktisch vernachlässigbar gegenüber LLM-Inferenz und Hosting. Mehr in unserem KI-Kosten-Rechner.