Modellseite: EmbeddingGemma
Ressourcen und technische Dokumentation:
Nutzungsbedingungen: Nutzungsbedingungen
Autoren: Google DeepMind
Modellinformationen
Zusammenfassende Beschreibung und kurze Definition der Ein- und Ausgaben.
Beschreibung
EmbeddingGemma ist ein offenes Embedding-Modell von Google mit 300 Millionen Parametern, das für seine Größe auf dem neuesten Stand der Technik ist. Es basiert auf Gemma 3 (mit T5Gemma-Initialisierung) und derselben Forschung und Technologie, die auch für die Erstellung von Gemini-Modellen verwendet werden. EmbeddingGemma erstellt Vektordarstellungen von Text und eignet sich daher gut für Such- und Abrufvorgänge, einschließlich Klassifizierung, Clustering und Suche nach semantischer Ähnlichkeit. Dieses Modell wurde mit Daten in über 100 gesprochenen Sprachen trainiert.
Die geringe Größe und der Fokus auf das Gerät ermöglichen den Einsatz in Umgebungen mit begrenzten Ressourcen wie Smartphones, Laptops oder Computern. So wird der Zugriff auf modernste KI-Modelle demokratisiert und Innovationen für alle gefördert.
Weitere technische Details finden Sie in unserem Paper EmbeddingGemma: Powerful and Lightweight Text Representations.
Eingaben und Ausgaben
Eingabe
- Textstring, z. B. eine Frage, ein Prompt oder ein einzubettendes Dokument
- Maximale Länge des Eingabekontexts von 2.000 Zeichen
Ausgabe:
- Numerische Vektordarstellungen von Eingabetextdaten
- Ausgabe-Einbettungsdimension mit einer Größe von 768, mit kleineren Optionen (512, 256 oder 128) über Matryoshka Representation Learning (MRL). Mit MRL können Nutzer die Ausgabeeinbettung der Größe 768 auf die gewünschte Größe kürzen und dann für eine effiziente und genaue Darstellung neu normalisieren.
Zitation
@article{embedding_gemma_2025,
title={EmbeddingGemma: Powerful and Lightweight Text Representations},
publisher={Google DeepMind},
author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
year={2025},
url={https://arxiv.org/abs/2509.20354}
}
Modelldaten
Trainings-Dataset
Dieses Modell wurde mit einem Dataset aus Textdaten trainiert, das eine Vielzahl von Quellen mit insgesamt etwa 320 Milliarden Tokens umfasst. Das sind die wichtigsten Komponenten:
- Webdokumente: Eine vielfältige Sammlung von Webtexten sorgt dafür, dass das Modell mit einer Vielzahl von sprachlichen Stilen, Themen und Vokabeln in Berührung kommt. Das Trainings-Dataset enthält Inhalte in über 100 Sprachen.
- Code und technische Dokumente: Wenn das Modell Code und technische Dokumentation sieht, kann es die Struktur und Muster von Programmiersprachen und spezialisierten wissenschaftlichen Inhalten lernen. Dadurch wird das Verständnis von Code und technischen Fragen verbessert.
- Synthetische und aufgabenspezifische Daten: Synthetische Trainingsdaten helfen, dem Modell bestimmte Fähigkeiten beizubringen. Dazu gehören kuratierte Daten für Aufgaben wie Informationsabruf, Klassifizierung und Stimmungsanalyse, die dazu beitragen, die Leistung für gängige Embedding-Anwendungen zu optimieren.
Die Kombination dieser verschiedenen Datenquellen ist entscheidend für das Training eines leistungsstarken mehrsprachigen Einbettungsmodells, das eine Vielzahl unterschiedlicher Aufgaben und Datenformate bewältigen kann.
Datenvorverarbeitung
Hier sind die wichtigsten Methoden zur Bereinigung und Filterung von Daten, die auf die Trainingsdaten angewendet werden:
- CSAM-Filterung: In mehreren Phasen der Datenaufbereitung wurde eine strenge Filterung von Darstellungen des sexuellen Missbrauchs von Kindern (Child Sexual Abuse Material, CSAM) angewendet, um schädliche und illegale Inhalte auszuschließen.
- Filterung sensibler Daten: Um die Sicherheit und Zuverlässigkeit der vortrainierten Gemma-Modelle zu gewährleisten, wurden bestimmte personenbezogene Daten und andere sensible Daten mithilfe automatisierter Verfahren aus den Trainingssets herausgefiltert.
- Zusätzliche Methoden: Filtern basierend auf der Qualität und Sicherheit von Inhalten gemäß unseren Richtlinien.
Modellentwicklung
Hardware
EmbeddingGemma wurde mit der neuesten Generation von Tensor Processing Unit (TPU)-Hardware (TPUv5e) trainiert. Weitere Informationen finden Sie auf der Gemma 3-Modellkarte.
Software
Das Training erfolgte mit JAX und ML Pathways. Weitere Informationen finden Sie auf der Gemma 3-Modellkarte.
Bewertung
Benchmark-Ergebnisse
Das Modell wurde anhand einer großen Sammlung verschiedener Datasets und Messwerte bewertet, um unterschiedliche Aspekte des Textverständnisses abzudecken.
Prüfpunkt mit voller Präzision
| MTEB (Multilingual, v2) | ||
|---|---|---|
| Dimensionalität | Mittelwert (Aufgabe) | Mittelwert (TaskType) |
| 768d | 61.15 | 54,31 |
| 512d | 60,71 | 53,89 |
| 256 Tage | 59,68 | 53.01 |
| 128d | 58,23 | 51,77 |
| MTEB (Englisch, V2) | ||
|---|---|---|
| Dimensionalität | Mittelwert (Aufgabe) | Mittelwert (TaskType) |
| 768d | 69,67 | 65.11 |
| 512d | 69.18 | 64,59 |
| 256 Tage | 68,37 | 64.02 |
| 128d | 66,66 | 62,70 |
| MTEB (Code, V1) | ||
|---|---|---|
| Dimensionalität | Mittelwert (Aufgabe) | Mittelwert (TaskType) |
| 768d | 68,76 | 68,76 |
| 512d | 68,48 | 68,48 |
| 256 Tage | 66,74 | 66,74 |
| 128d | 62,96 | 62,96 |
QAT-Prüfpunkte
| MTEB (Multilingual, v2) | ||
|---|---|---|
| Quant-Konfiguration (Dimensionalität) | Mittelwert (Aufgabe) | Mittelwert (TaskType) |
| Mixed Precision* (768 d) | 60,69 | 53,82 |
| Q8_0 (768d) | 60,93 | 53,95 |
| Q4_0 (768d) | 60,62 | 53,61 |
| MTEB (Englisch, V2) | ||
|---|---|---|
| Quant-Konfiguration (Dimensionalität) | Mittelwert (Aufgabe) | Mittelwert (TaskType) |
| Mixed Precision* (768 d) | 69,32 | 64,82 |
| Q8_0 (768d) | 69,49 | 64,84 |
| Q4_0 (768d) | 69,31 | 64,65 |
| MTEB (Code, V1) | ||
|---|---|---|
| Quant-Konfiguration (Dimensionalität) | Mittelwert (Aufgabe) | Mittelwert (TaskType) |
| Mixed Precision* (768 d) | 68,03 | 68,03 |
| Q8_0 (768d) | 68,70 | 68,70 |
| Q4_0 (768d) | 67,99 | 67,99 |
* „Mixed Precision“ bezieht sich auf die kanalweise Quantisierung mit int4 für Einbettungs-, Feedforward- und Projektionsschichten und mit int8 für die Attention-Schicht (e4_a8_f4_p4).
Anleitung für Prompts
Mit EmbeddingGemma können optimierte Embeddings für verschiedene Anwendungsfälle wie Dokumentabruf, Question Answering und Faktenprüfung oder für bestimmte Eingabetypen (entweder eine Anfrage oder ein Dokument) generiert werden. Dazu werden Prompts verwendet, die den Eingabestrings vorangestellt werden.
Abfrage-Prompts folgen dem Format task: {task description} | query:. Die Aufgabenbeschreibung variiert je nach Anwendungsfall. Die Standardaufgabenbeschreibung ist search result. Prompts im Dokumentstil folgen dem Format title: {title | "none"} | text:, wobei der Titel entweder none (die Standardeinstellung) oder der tatsächliche Titel des Dokuments ist. Wenn Sie einen Titel angeben, sofern verfügbar, wird die Modellleistung für Dokument-Prompts verbessert. Möglicherweise ist jedoch eine manuelle Formatierung erforderlich.
Verwenden Sie die folgenden Prompts basierend auf Ihrem Anwendungsfall und dem Eingabedatentyp. Diese sind möglicherweise bereits in der EmbeddingGemma-Konfiguration in Ihrem bevorzugten Modellierungsframework verfügbar.
Anwendungsfall (Enum für Aufgabentyp) |
Beschreibungen |
Empfohlener Prompt |
|---|---|---|
Abruf (Abfrage) |
Wird verwendet, um Einbettungen zu generieren, die für die Dokumentsuche oder die Informationsabfrage optimiert sind. |
Aufgabe: Suchergebnis | Anfrage: {content} |
Abruf (Dokument) |
title: {title | "none"} | text: {content} |
|
Question Answering |
task: question answering | query: {content} |
|
Faktenüberprüfung |
task: fact checking | query: {content} |
|
Klassifizierung |
Wird verwendet, um Einbettungen zu generieren, die für die Klassifizierung von Texten nach vordefinierten Labels optimiert sind. |
task: classification | query: {content} |
Clustering |
Wird verwendet, um Einbettungen zu generieren, die für das Clustern von Texten basierend auf ihren Ähnlichkeiten optimiert sind. |
task: clustering | query: {content} |
Semantische Ähnlichkeit |
Wird verwendet, um Einbettungen zu generieren, die für die Beurteilung der Textähnlichkeit optimiert sind. Dies ist nicht für Abrufanwendungsfälle vorgesehen. |
task: sentence similarity | query: {content} |
Code abrufen |
Wird verwendet, um einen Codeblock basierend auf einer Anfrage in natürlicher Sprache abzurufen, z. B. sort an array (Array sortieren) oder reverse a linked list (verkettete Liste umkehren). Einbettungen der Codeblöcke werden mit „retrieval_document“ berechnet. |
task: code retrieval | query: {content} |
Nutzung und Einschränkungen
Diese Modelle unterliegen bestimmten Einschränkungen, die Nutzer kennen sollten.
Verwendungszweck
Offene Embedding-Modelle können in einer Vielzahl von Branchen und Bereichen eingesetzt werden. Die folgende Liste potenzieller Verwendungszwecke ist nicht vollständig. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen liefern, die die Modellersteller im Rahmen des Modelltrainings und der Modellentwicklung berücksichtigt haben.
- Semantische Ähnlichkeit: Einbettungen, die für die Beurteilung der Textähnlichkeit optimiert sind, z. B. Empfehlungssysteme und Duplikaterkennung
- Klassifizierung: Einbettungen, die für die Klassifizierung von Texten nach voreingestellten Labels optimiert sind, z. B. Sentimentanalyse und Spamerkennung
- Clustering: Einbettungen, die für das Clustern von Texten basierend auf ihren Ähnlichkeiten optimiert sind, z. B. für die Dokumentorganisation, Marktforschung und Anomalieerkennung
Abruf
- Dokument: Einbettungen, die für die Dokumentsuche optimiert sind, z. B. zum Indexieren von Artikeln, Büchern oder Webseiten für die Suche
- Abfrage: Einbettungen, die für allgemeine Suchanfragen wie die benutzerdefinierte Suche optimiert sind
- Code Query: Einbettungen, die für den Abruf von Codeblöcken auf Grundlage von Abfragen in natürlicher Sprache optimiert sind, z. B. Codevorschläge und Suche
Question Answering (Fragen beantworten): Embeddings für Fragen in einem System zum Beantworten von Fragen, das für das Auffinden von Dokumenten optimiert ist, die die Frage beantworten, z. B. ein Chatbot.
Faktenüberprüfung: Einbettungen für Aussagen, die überprüft werden müssen, optimiert für das Abrufen von Dokumenten, die Beweise für oder gegen die Aussage enthalten, z. B. automatisierte Systeme zur Faktenüberprüfung.
Beschränkungen
Trainingsdaten
- Die Qualität und Vielfalt der Trainingsdaten haben einen erheblichen Einfluss auf die Fähigkeiten des Modells. Bias oder Lücken in den Trainingsdaten können zu Einschränkungen bei den Antworten des Modells führen.
- Der Umfang des Trainingsdatensatzes bestimmt die Themenbereiche, die das Modell effektiv abdecken kann.
Mehrdeutigkeit und Nuancen in der Sprache
- Natürliche Sprache ist von Natur aus komplex. Modelle haben möglicherweise Schwierigkeiten, subtile Nuancen, Sarkasmus oder bildliche Sprache zu erfassen.
Ethische Aspekte und Risiken
Erkannte Risiken und Risikominderungen:
- Verfestigung von Vorurteilen: Es wird empfohlen, während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle eine kontinuierliche Überwachung (mit Bewertungsmetriken, manueller Überprüfung) durchzuführen und Techniken zur Reduzierung von Vorurteilen zu untersuchen.
- Missbrauch für böswillige Zwecke: Technische Einschränkungen sowie Aufklärung von Entwicklern und Endnutzern können dazu beitragen, böswillige Anwendungen von Einbettungen zu verhindern. Es werden Bildungsressourcen und Meldemechanismen für Nutzer bereitgestellt, um Missbrauch zu melden. Die unzulässige Nutzung von Gemma-Modellen ist in der Richtlinie zur unzulässigen Nutzung von Gemma beschrieben.
- Datenschutzverstöße: Modelle wurden mit Daten trainiert, die gefiltert wurden, um bestimmte personenbezogene Daten und andere vertrauliche Daten zu entfernen. Entwickler werden aufgefordert, Datenschutzbestimmungen mit datenschutzfreundlichen Techniken einzuhalten.
Vorteile
Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie leistungsstarke offene Implementierungen von Einbettungsmodellen, die von Grund auf für die Entwicklung verantwortungsbewusster KI konzipiert sind, verglichen mit Modellen ähnlicher Größe. Mithilfe der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte haben diese Modelle eine bessere Leistung als andere, vergleichbar große offene Modellalternativen gezeigt.