Embedding erklärt | Vektor-Repräsentation von Text für KI

Was ist ein Embedding?

Stellen Sie sich vor, jedes Wort und jeder Satz Ihres Unternehmens-Wissens bekommt eine eindeutige Position in einem hochdimensionalen Raum. Ähnliche Inhalte landen nahe beieinander, unterschiedliche weit auseinander. Diese „Position“ ist mathematisch eine Liste von 768 bis 3072 Zahlen — der Embedding-Vektor.

Konkret: das Wort „Auftrag“ und das Wort „Bestellung“ haben sehr ähnliche Embedding-Vektoren — auch wenn die Buchstaben komplett anders sind. Das ist die Magie: semantische Ähnlichkeit wird zu mathematischer Nähe. Damit lassen sich Bedeutungen vergleichen, nicht nur Buchstaben.

Warum braucht man Vektoren?

Klassische Volltext-Suche (z. B. SQL LIKE oder Elasticsearch BM25) findet exakt die Worte, die in der Anfrage vorkommen. Wer „Reklamationsprozess“ sucht, findet keine Dokumente über „Beschwerdeverfahren“ — obwohl es das Gleiche ist. Embeddings lösen genau dieses Problem.

Bei einer Suchanfrage wird die Frage selbst in einen Embedding-Vektor gewandelt und mit allen gespeicherten Vektoren verglichen (typischerweise via Kosinus-Ähnlichkeit). Die Top-N ähnlichsten werden zurückgegeben — egal ob die exakten Wörter vorkommen. Das ist die Basis von RAG.

Embedding-Modelle 2026

Drei Modell-Familien dominieren:

OpenAI text-embedding-3 (small/large): einfache API, sehr gute Qualität, 1536–3072 Dimensionen. Standard-Wahl für die meisten Cases.
Cohere embed-multilingual-v3: hervorragend für mehrsprachige Daten, 1024 Dimensionen, kompakt.
BGE-M3 (Open Source): auf eigener Hardware betreibbar, 768 Dimensionen, hohe Qualität für deutsch.

Für deutsche Mittelstands-Cases (gemischte Sprache, normale Dokumentvielfalt) sind alle drei produktionsreif. Wir empfehlen Standardpfad text-embedding-3-large, On-Prem-Pfad BGE-M3.

Qualitätsfaktoren

Drei Stellschrauben, die die Embedding-Qualität entscheiden:

Modell-Größe: größere Modelle haben mehr Differenzierung, brauchen aber mehr Rechenzeit und Speicher.
Trainingsdaten-Sprache: ein primär englisch trainiertes Modell wird deutsche Nuancen schlechter abbilden.
Domänen-Anpassung: für hochspezialisierte Domänen (Recht, Medizin) lohnt manchmal Fine-Tuning des Embedding-Modells — selten, aber möglich.

Was kosten Embeddings?

Sehr günstig im Vergleich zur LLM-Inferenz. Beispielrechnung für eine Wissensbasis mit 100.000 Dokumenten à 5 Chunks à 500 Tokens = 250 Mio Tokens:

OpenAI text-embedding-3-large: 0,13 € × 250 = 32,50 € einmalig.
Cohere embed-multilingual-v3: 0,10 € × 250 = 25 € einmalig.
BGE-M3 self-hosted: ~2 Stunden auf einer A10G GPU = ca. 4 €.

Im Betrieb fallen nur die Embeddings für neue Dokumente und Suchanfragen an — meist im Bereich weniger Euro pro Monat. Embedding-Kosten sind in der RAG-Gesamtrechnung praktisch vernachlässigbar gegenüber LLM-Inferenz und Hosting. Mehr in unserem KI-Kosten-Rechner.

Häufig gestellte Fragen

Welches Embedding-Modell soll ich nutzen?

Faustregel 2026: text-embedding-3-large (OpenAI) für höchste Qualität bei moderaten Kosten, BGE-M3 als open-source-Alternative für Self-Hosting, Cohere multilingual-v3 wenn Sie viele Sprachen brauchen. Für deutsche Texte sind alle drei sehr gut. Verwenden Sie unbedingt ein multilingualeres Modell, falls Ihre Dokumente auch englischsprachige Inhalte enthalten.

Wie viele Dimensionen sollte ein Embedding haben?

Mehr Dimensionen = mehr Detailtiefe, aber mehr Speicherbedarf und etwas langsamere Suche. 768 Dimensionen (BGE-M3 default) reichen für die meisten Mittelstands-Cases. 1536 (text-embedding-3-small) oder 3072 (text-embedding-3-large) lohnen, wenn Ihre Dokumente sehr nuanciert sind. Bei großen Datenmengen (>10 Mio. Chunks) kann es sinnvoll sein, Embeddings auf z.B. 1024 Dimensionen zu reduzieren (Matryoshka).

Kann ich Embeddings selbst hosten?

Ja — open-source-Modelle wie BGE-M3, e5-large-multilingual oder mxbai-embed-large laufen auf einer mittleren GPU (z. B. NVIDIA A10G) mit ca. 200 Embeddings/Sekunde. Bei großen Volumina (mehrere Millionen Embeddings/Tag) lohnt sich Self-Hosting wirtschaftlich. Bei kleineren Volumina ist die OpenAI-API günstiger und einfacher.

Was kosten Embeddings?

Bei OpenAI text-embedding-3-large: 0,13 € pro 1 Million Tokens. Eine durchschnittliche Wissensbasis mit 100.000 Chunks à 500 Tokens kostet einmalig ca. 6,50 € zu indexieren. Re-Indexierung bei Updates entsprechend. Pro Suchanfrage (Embedding der Frage selbst) Bruchteile eines Cents.

Kostenfreie KI-Potenzialanalyse

30 Minuten Strategiegespräch mit einem KBD-Berater. Konkret, ehrlich, ohne Verkaufsdruck — wir sagen Ihnen offen, ob KI für Ihren Use Case lohnt.

Analyse Ihrer 3 wichtigsten Prozesse
Konkrete Roadmap mit Aufwandsschätzung
Indikative ROI-Rechnung für Ihren Case

Ergänzend lesenswert

RAG

Wo Embeddings zum Einsatz kommen

Vektor-Datenbank

Wo Embeddings gespeichert werden

LLM

Das Sprachmodell hinter Embeddings

Wissensmanagement

Embeddings in der Praxis

Embedding — wie KI Text in Zahlen verwandelt

Was ist ein Embedding?

Warum braucht man Vektoren?

Embedding-Modelle 2026

Qualitätsfaktoren

Was kosten Embeddings?

Häufig gestellte Fragen

Kostenfreie KI-Potenzialanalyse

Ergänzend lesenswert

RAG

Vektor-Datenbank

LLM

Wissensmanagement