EmbeddingGemma-Modellkarte

Modellseite: EmbeddingGemma

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Nutzungsbedingungen

Autoren: Google DeepMind

Modellinformationen

Zusammenfassende Beschreibung und kurze Definition der Ein- und Ausgaben.

Beschreibung

EmbeddingGemma ist ein offenes Embedding-Modell von Google mit 300 Millionen Parametern, das für seine Größe auf dem neuesten Stand der Technik ist. Es basiert auf Gemma 3 (mit T5Gemma-Initialisierung) und derselben Forschung und Technologie, die auch für die Erstellung von Gemini-Modellen verwendet werden. EmbeddingGemma erstellt Vektordarstellungen von Text und eignet sich daher gut für Such- und Abrufvorgänge, einschließlich Klassifizierung, Clustering und Suche nach semantischer Ähnlichkeit. Dieses Modell wurde mit Daten in über 100 gesprochenen Sprachen trainiert.

Die geringe Größe und der Fokus auf das Gerät ermöglichen den Einsatz in Umgebungen mit begrenzten Ressourcen wie Smartphones, Laptops oder Computern. So wird der Zugriff auf modernste KI-Modelle demokratisiert und Innovationen für alle gefördert.

Weitere technische Details finden Sie in unserem Paper EmbeddingGemma: Powerful and Lightweight Text Representations.

Eingaben und Ausgaben

  • Eingabe

    • Textstring, z. B. eine Frage, ein Prompt oder ein einzubettendes Dokument
    • Maximale Länge des Eingabekontexts von 2.000 Zeichen
  • Ausgabe:

    • Numerische Vektordarstellungen von Eingabetextdaten
    • Ausgabe-Einbettungsdimension mit einer Größe von 768, mit kleineren Optionen (512, 256 oder 128) über Matryoshka Representation Learning (MRL). Mit MRL können Nutzer die Ausgabeeinbettung der Größe 768 auf die gewünschte Größe kürzen und dann für eine effiziente und genaue Darstellung neu normalisieren.

Zitation

@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}

Modelldaten

Trainings-Dataset

Dieses Modell wurde mit einem Dataset aus Textdaten trainiert, das eine Vielzahl von Quellen mit insgesamt etwa 320 Milliarden Tokens umfasst. Das sind die wichtigsten Komponenten:

  • Webdokumente: Eine vielfältige Sammlung von Webtexten sorgt dafür, dass das Modell mit einer Vielzahl von sprachlichen Stilen, Themen und Vokabeln in Berührung kommt. Das Trainings-Dataset enthält Inhalte in über 100 Sprachen.
  • Code und technische Dokumente: Wenn das Modell Code und technische Dokumentation sieht, kann es die Struktur und Muster von Programmiersprachen und spezialisierten wissenschaftlichen Inhalten lernen. Dadurch wird das Verständnis von Code und technischen Fragen verbessert.
  • Synthetische und aufgabenspezifische Daten: Synthetische Trainingsdaten helfen, dem Modell bestimmte Fähigkeiten beizubringen. Dazu gehören kuratierte Daten für Aufgaben wie Informationsabruf, Klassifizierung und Stimmungsanalyse, die dazu beitragen, die Leistung für gängige Embedding-Anwendungen zu optimieren.

Die Kombination dieser verschiedenen Datenquellen ist entscheidend für das Training eines leistungsstarken mehrsprachigen Einbettungsmodells, das eine Vielzahl unterschiedlicher Aufgaben und Datenformate bewältigen kann.

Datenvorverarbeitung

Hier sind die wichtigsten Methoden zur Bereinigung und Filterung von Daten, die auf die Trainingsdaten angewendet werden:

  • CSAM-Filterung: In mehreren Phasen der Datenaufbereitung wurde eine strenge Filterung von Darstellungen des sexuellen Missbrauchs von Kindern (Child Sexual Abuse Material, CSAM) angewendet, um schädliche und illegale Inhalte auszuschließen.
  • Filterung sensibler Daten: Um die Sicherheit und Zuverlässigkeit der vortrainierten Gemma-Modelle zu gewährleisten, wurden bestimmte personenbezogene Daten und andere sensible Daten mithilfe automatisierter Verfahren aus den Trainingssets herausgefiltert.
  • Zusätzliche Methoden: Filtern basierend auf der Qualität und Sicherheit von Inhalten gemäß unseren Richtlinien.

Modellentwicklung

Hardware

EmbeddingGemma wurde mit der neuesten Generation von Tensor Processing Unit (TPU)-Hardware (TPUv5e) trainiert. Weitere Informationen finden Sie auf der Gemma 3-Modellkarte.

Software

Das Training erfolgte mit JAX und ML Pathways. Weitere Informationen finden Sie auf der Gemma 3-Modellkarte.

Bewertung

Benchmark-Ergebnisse

Das Modell wurde anhand einer großen Sammlung verschiedener Datasets und Messwerte bewertet, um unterschiedliche Aspekte des Textverständnisses abzudecken.

Prüfpunkt mit voller Präzision

MTEB (Multilingual, v2)
Dimensionalität Mittelwert (Aufgabe) Mittelwert (TaskType)
768d 61.15 54,31
512d 60,71 53,89
256 Tage 59,68 53.01
128d 58,23 51,77
MTEB (Englisch, V2)
Dimensionalität Mittelwert (Aufgabe) Mittelwert (TaskType)
768d 69,67 65.11
512d 69.18 64,59
256 Tage 68,37 64.02
128d 66,66 62,70
MTEB (Code, V1)
Dimensionalität Mittelwert (Aufgabe) Mittelwert (TaskType)
768d 68,76 68,76
512d 68,48 68,48
256 Tage 66,74 66,74
128d 62,96 62,96

QAT-Prüfpunkte

MTEB (Multilingual, v2)
Quant-Konfiguration (Dimensionalität) Mittelwert (Aufgabe) Mittelwert (TaskType)
Mixed Precision* (768 d) 60,69 53,82
Q8_0 (768d) 60,93 53,95
Q4_0 (768d) 60,62 53,61
MTEB (Englisch, V2)
Quant-Konfiguration (Dimensionalität) Mittelwert (Aufgabe) Mittelwert (TaskType)
Mixed Precision* (768 d) 69,32 64,82
Q8_0 (768d) 69,49 64,84
Q4_0 (768d) 69,31 64,65
MTEB (Code, V1)
Quant-Konfiguration (Dimensionalität) Mittelwert (Aufgabe) Mittelwert (TaskType)
Mixed Precision* (768 d) 68,03 68,03
Q8_0 (768d) 68,70 68,70
Q4_0 (768d) 67,99 67,99

* „Mixed Precision“ bezieht sich auf die kanalweise Quantisierung mit int4 für Einbettungs-, Feedforward- und Projektionsschichten und mit int8 für die Attention-Schicht (e4_a8_f4_p4).

Anleitung für Prompts

Mit EmbeddingGemma können optimierte Embeddings für verschiedene Anwendungsfälle wie Dokumentabruf, Question Answering und Faktenprüfung oder für bestimmte Eingabetypen (entweder eine Anfrage oder ein Dokument) generiert werden. Dazu werden Prompts verwendet, die den Eingabestrings vorangestellt werden.

Abfrage-Prompts folgen dem Format task: {task description} | query:. Die Aufgabenbeschreibung variiert je nach Anwendungsfall. Die Standardaufgabenbeschreibung ist search result. Prompts im Dokumentstil folgen dem Format title: {title | "none"} | text:, wobei der Titel entweder none (die Standardeinstellung) oder der tatsächliche Titel des Dokuments ist. Wenn Sie einen Titel angeben, sofern verfügbar, wird die Modellleistung für Dokument-Prompts verbessert. Möglicherweise ist jedoch eine manuelle Formatierung erforderlich.

Verwenden Sie die folgenden Prompts basierend auf Ihrem Anwendungsfall und dem Eingabedatentyp. Diese sind möglicherweise bereits in der EmbeddingGemma-Konfiguration in Ihrem bevorzugten Modellierungsframework verfügbar.


Anwendungsfall (Enum für Aufgabentyp)

Beschreibungen

Empfohlener Prompt

Abruf (Abfrage)

Wird verwendet, um Einbettungen zu generieren, die für die Dokumentsuche oder die Informationsabfrage optimiert sind.

Aufgabe: Suchergebnis | Anfrage: {content}

Abruf (Dokument)

title: {title | "none"} | text: {content}

Question Answering

task: question answering | query: {content}

Faktenüberprüfung

task: fact checking | query: {content}

Klassifizierung

Wird verwendet, um Einbettungen zu generieren, die für die Klassifizierung von Texten nach vordefinierten Labels optimiert sind.

task: classification | query: {content}

Clustering

Wird verwendet, um Einbettungen zu generieren, die für das Clustern von Texten basierend auf ihren Ähnlichkeiten optimiert sind.

task: clustering | query: {content}

Semantische Ähnlichkeit

Wird verwendet, um Einbettungen zu generieren, die für die Beurteilung der Textähnlichkeit optimiert sind. Dies ist nicht für Abrufanwendungsfälle vorgesehen.

task: sentence similarity | query: {content}

Code abrufen

Wird verwendet, um einen Codeblock basierend auf einer Anfrage in natürlicher Sprache abzurufen, z. B. sort an array (Array sortieren) oder reverse a linked list (verkettete Liste umkehren). Einbettungen der Codeblöcke werden mit „retrieval_document“ berechnet.

task: code retrieval | query: {content}

Nutzung und Einschränkungen

Diese Modelle unterliegen bestimmten Einschränkungen, die Nutzer kennen sollten.

Verwendungszweck

Offene Embedding-Modelle können in einer Vielzahl von Branchen und Bereichen eingesetzt werden. Die folgende Liste potenzieller Verwendungszwecke ist nicht vollständig. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen liefern, die die Modellersteller im Rahmen des Modelltrainings und der Modellentwicklung berücksichtigt haben.

  • Semantische Ähnlichkeit: Einbettungen, die für die Beurteilung der Textähnlichkeit optimiert sind, z. B. Empfehlungssysteme und Duplikaterkennung
  • Klassifizierung: Einbettungen, die für die Klassifizierung von Texten nach voreingestellten Labels optimiert sind, z. B. Sentimentanalyse und Spamerkennung
  • Clustering: Einbettungen, die für das Clustern von Texten basierend auf ihren Ähnlichkeiten optimiert sind, z. B. für die Dokumentorganisation, Marktforschung und Anomalieerkennung
  • Abruf

    • Dokument: Einbettungen, die für die Dokumentsuche optimiert sind, z. B. zum Indexieren von Artikeln, Büchern oder Webseiten für die Suche
    • Abfrage: Einbettungen, die für allgemeine Suchanfragen wie die benutzerdefinierte Suche optimiert sind
    • Code Query: Einbettungen, die für den Abruf von Codeblöcken auf Grundlage von Abfragen in natürlicher Sprache optimiert sind, z. B. Codevorschläge und Suche
  • Question Answering (Fragen beantworten): Embeddings für Fragen in einem System zum Beantworten von Fragen, das für das Auffinden von Dokumenten optimiert ist, die die Frage beantworten, z. B. ein Chatbot.

  • Faktenüberprüfung: Einbettungen für Aussagen, die überprüft werden müssen, optimiert für das Abrufen von Dokumenten, die Beweise für oder gegen die Aussage enthalten, z. B. automatisierte Systeme zur Faktenüberprüfung.

Beschränkungen

  • Trainingsdaten

    • Die Qualität und Vielfalt der Trainingsdaten haben einen erheblichen Einfluss auf die Fähigkeiten des Modells. Bias oder Lücken in den Trainingsdaten können zu Einschränkungen bei den Antworten des Modells führen.
    • Der Umfang des Trainingsdatensatzes bestimmt die Themenbereiche, die das Modell effektiv abdecken kann.
  • Mehrdeutigkeit und Nuancen in der Sprache

    • Natürliche Sprache ist von Natur aus komplex. Modelle haben möglicherweise Schwierigkeiten, subtile Nuancen, Sarkasmus oder bildliche Sprache zu erfassen.

Ethische Aspekte und Risiken

Erkannte Risiken und Risikominderungen:

  • Verfestigung von Vorurteilen: Es wird empfohlen, während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle eine kontinuierliche Überwachung (mit Bewertungsmetriken, manueller Überprüfung) durchzuführen und Techniken zur Reduzierung von Vorurteilen zu untersuchen.
  • Missbrauch für böswillige Zwecke: Technische Einschränkungen sowie Aufklärung von Entwicklern und Endnutzern können dazu beitragen, böswillige Anwendungen von Einbettungen zu verhindern. Es werden Bildungsressourcen und Meldemechanismen für Nutzer bereitgestellt, um Missbrauch zu melden. Die unzulässige Nutzung von Gemma-Modellen ist in der Richtlinie zur unzulässigen Nutzung von Gemma beschrieben.
  • Datenschutzverstöße: Modelle wurden mit Daten trainiert, die gefiltert wurden, um bestimmte personenbezogene Daten und andere vertrauliche Daten zu entfernen. Entwickler werden aufgefordert, Datenschutzbestimmungen mit datenschutzfreundlichen Techniken einzuhalten.

Vorteile

Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie leistungsstarke offene Implementierungen von Einbettungsmodellen, die von Grund auf für die Entwicklung verantwortungsbewusster KI konzipiert sind, verglichen mit Modellen ähnlicher Größe. Mithilfe der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte haben diese Modelle eine bessere Leistung als andere, vergleichbar große offene Modellalternativen gezeigt.