Page du modèle : EmbeddingGemma
Ressources et documentation technique :
- Boîte à outils pour une IA générative responsable
- EmbeddingGemma sur Kaggle
- EmbeddingGemma sur Vertex Model Garden
Conditions d'utilisation : Conditions d'utilisation
Auteurs : Google DeepMind
Infos sur le modèle
Description récapitulative et brève définition des entrées et des sorties.
Description
EmbeddingGemma est un modèle d'embedding ouvert de Google, à la pointe de la technologie pour sa taille (300 millions de paramètres). Il est basé sur Gemma 3 (avec l'initialisation T5Gemma) et sur les mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini. EmbeddingGemma produit des représentations vectorielles de texte, ce qui le rend bien adapté aux tâches de recherche et d'extraction, y compris la classification, le clustering et la recherche de similarités sémantiques. Ce modèle a été entraîné avec des données dans plus de 100 langues parlées.
Sa petite taille et son orientation sur l'appareil permettent de le déployer dans des environnements aux ressources limitées, tels que les téléphones mobiles, les ordinateurs portables ou les ordinateurs de bureau. Il démocratise ainsi l'accès aux modèles d'IA de pointe et favorise l'innovation pour tous.
Pour en savoir plus sur les aspects techniques, consultez notre article : EmbeddingGemma: Powerful and Lightweight Text Representations.
Entrées et sorties
- Entrée : - Chaîne de texte, telle qu'une question, une requête ou un document à intégrer
- Longueur maximale du contexte d'entrée de 2 000
 
- Résultat : - Représentations vectorielles numériques des données textuelles d'entrée
- Taille de la dimension d'embedding de sortie de 768, avec des options plus petites disponibles (512, 256 ou 128) via l'apprentissage de la représentation Matryoshka (MRL). MRL permet aux utilisateurs de tronquer l'embedding de sortie de taille 768 à la taille souhaitée, puis de le renormaliser pour une représentation efficace et précise.
 
Citation
@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}
Modéliser les données
Ensemble de données d'entraînement
Ce modèle a été entraîné sur un ensemble de données textuelles comprenant une grande variété de sources, pour un total d'environ 320 milliards de jetons. Voici les principaux composants :
- Documents Web : une collection variée de textes Web permet au modèle d'être exposé à un large éventail de styles linguistiques, de thèmes et de vocabulaire. L'ensemble de données d'entraînement inclut du contenu dans plus de 100 langues.
- Code et documents techniques : l'exposition du modèle au code et à la documentation technique l'aide à apprendre la structure et les modèles des langages de programmation et du contenu scientifique spécialisé, ce qui améliore sa compréhension du code et des questions techniques.
- Données synthétiques et spécifiques à une tâche : les données d'entraînement synthétiques aident à enseigner des compétences spécifiques au modèle. Cela inclut des données organisées pour des tâches telles que la récupération d'informations, la classification et l'analyse des sentiments, ce qui permet d'affiner ses performances pour les applications d'embedding courantes.
La combinaison de ces diverses sources de données est essentielle pour entraîner un modèle d'embedding multilingue puissant, capable de gérer une grande variété de tâches et de formats de données.
Prétraitement des données
Voici les principales méthodes de nettoyage et de filtrage des données appliquées aux données d'entraînement :
- Filtrage des contenus d'abus sexuels sur mineurs : un filtrage rigoureux des contenus d'abus sexuels sur mineurs a été appliqué à plusieurs étapes du processus de préparation des données pour garantir l'exclusion des contenus dangereux et illégaux.
- Filtrage des données sensibles : pour rendre les modèles Gemma pré-entraînés sûrs et fiables, nous avons utilisé des techniques automatisées afin de filtrer certaines informations personnelles et d'autres données sensibles des ensembles d'entraînement.
- Autres méthodes : filtrage basé sur la qualité et la sécurité du contenu conformément à nos Règles.
Développement de modèles
Matériel
EmbeddingGemma a été entraîné à l'aide de la dernière génération de matériel Tensor Processing Unit (TPU) (TPUv5e). Pour en savoir plus, consultez la fiche de modèle Gemma 3.
Logiciel
L'entraînement a été effectué à l'aide de JAX et de ML Pathways. Pour en savoir plus, consultez la fiche de modèle Gemma 3.
Évaluation
Résultats du benchmark
Le modèle a été évalué par rapport à une grande collection de différents ensembles de données et métriques pour couvrir différents aspects de la compréhension du texte.
Point de contrôle de précision complète
| MTEB (Multilingual, v2) | ||
|---|---|---|
| Dimensionalité | Moyenne (tâche) | Moyenne (TaskType) | 
| 768d | 61.15 | 54.31 | 
| 512d | 60.71 | 53,89 | 
| 256d | 59.68 | 53.01 | 
| 128d | 58,23 | 51.77 | 
| MTEB (anglais, v2) | ||
|---|---|---|
| Dimensionalité | Moyenne (tâche) | Moyenne (TaskType) | 
| 768d | 69.67 | 65.11 | 
| 512d | 69.18 | 64.59 | 
| 256d | 68.37 | 64.02 | 
| 128d | 66.66 | 62.70 | 
| MTEB (Code, v1) | ||
|---|---|---|
| Dimensionalité | Moyenne (tâche) | Moyenne (TaskType) | 
| 768d | 68.76 | 68.76 | 
| 512d | 68.48 | 68.48 | 
| 256d | 66,74 | 66,74 | 
| 128d | 62,96 | 62,96 | 
Points de contrôle QAT
| MTEB (Multilingual, v2) | ||
|---|---|---|
| Configuration de la quantification (dimensionnalité) | Moyenne (tâche) | Moyenne (TaskType) | 
| Précision mixte* (768 d) | 60,69 | 53.82 | 
| Q8_0 (768d) | 60,93 | 53,95 | 
| Q4_0 (768d) | 60,62 | 53.61 | 
| MTEB (anglais, v2) | ||
|---|---|---|
| Configuration de la quantification (dimensionnalité) | Moyenne (tâche) | Moyenne (TaskType) | 
| Précision mixte* (768 d) | 69.32 | 64.82 | 
| Q8_0 (768d) | 69.49 | 64.84 | 
| Q4_0 (768d) | 69,31 | 64.65 | 
| MTEB (Code, v1) | ||
|---|---|---|
| Configuration de la quantification (dimensionnalité) | Moyenne (tâche) | Moyenne (TaskType) | 
| Précision mixte* (768 d) | 68.03 | 68.03 | 
| Q8_0 (768d) | 68.70 | 68.70 | 
| Q4_0 (768d) | 67.99 | 67.99 | 
* La précision mixte fait référence à la quantification par canal avec int4 pour les couches d'intégration, de feedforward et de projection, et int8 pour l'attention (e4_a8_f4_p4).
Instructions pour les requêtes
EmbeddingGemma peut générer des embeddings optimisés pour différents cas d'utilisation (récupération de documents, questions-réponses et vérification des faits, par exemple) ou pour des types d'entrée spécifiques (requête ou document) à l'aide d'invites ajoutées aux chaînes d'entrée.
Les invites de requête suivent le format task: {task description} | query:, où la description de la tâche varie en fonction du cas d'utilisation. La description de tâche par défaut est search result. Les requêtes de style document suivent le format title: {title | "none"} | text:, où le titre est soit none (par défaut), soit le titre réel du document. Notez que fournir un titre, s'il est disponible, améliorera les performances du modèle pour les requêtes de document, mais peut nécessiter une mise en forme manuelle.
Utilisez les requêtes suivantes en fonction de votre cas d'utilisation et du type de données d'entrée. Elles peuvent déjà être disponibles dans la configuration EmbeddingGemma de votre framework de modélisation de choix.
| Cas d'utilisation (énumération du type de tâche) | Descriptions | Requête recommandée | 
|---|---|---|
| Récupération (requête) | Permet de générer des embeddings optimisés pour la recherche de documents ou la récupération d'informations | task: search result | query: {content} | 
| Récupération (document) | title: {title | "none"} | text: {content} | |
| Systèmes de questions-réponses | task: question answering | query: {content} | |
| Vérification des faits | task: fact checking | query: {content} | |
| Classification | Permet de générer des embeddings optimisés pour classer des textes en fonction d'étiquettes prédéfinies | task: classification | query: {content} | 
| Clustering | Permet de générer des embeddings optimisés pour regrouper des textes en fonction de leurs similitudes | task: clustering | query: {content} | 
| Similarité sémantique | Permet de générer des embeddings optimisés pour évaluer la similitude de texte. Il n'est pas destiné aux cas d'utilisation de récupération. | task: sentence similarity | query: {content} | 
| Récupération du code | Permet de récupérer un bloc de code en fonction d'une requête en langage naturel, par exemple trier un tableau ou inverser une liste associée. Les embeddings des blocs de code sont calculés à l'aide de retrieval_document. | task: code retrieval | query: {content} | 
Utilisation et limites
Ces modèles présentent certaines limites que les utilisateurs doivent connaître.
Utilisation prévue
Les modèles d'embedding ouverts ont de nombreuses applications dans divers secteurs et domaines. La liste suivante des utilisations potentielles n'est pas exhaustive. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles que les créateurs du modèle ont pris en compte lors de l'entraînement et du développement du modèle.
- Similitude sémantique : embeddings optimisés pour évaluer la similitude de texte, comme les systèmes de recommandation et la détection des doublons
- Classification : embeddings optimisés pour classer des textes en fonction d'étiquettes prédéfinies, comme l'analyse des sentiments et la détection du spam
- Clustering : embeddings optimisés pour regrouper des textes en fonction de leurs similitudes, comme l'organisation de documents, les études de marché et la détection d'anomalies
- Récupération - Document : embeddings optimisés pour la recherche de documents, comme l'indexation d'articles, de livres ou de pages Web pour la recherche
- Requête : embeddings optimisés pour les requêtes de recherche générales, comme la recherche personnalisée
- Requête de code : embeddings optimisés pour la récupération de blocs de code en fonction de requêtes en langage naturel, comme les suggestions de code et la recherche
 
- Systèmes de questions-réponses : embeddings pour les questions dans un système de questions-réponses, optimisés pour trouver les documents qui répondent à la question, comme une boîte de discussion. 
- Validation des faits : embeddings pour les déclarations à valider, optimisés pour récupérer les documents contenant des preuves qui soutiennent ou réfutent la déclaration, comme les systèmes de fact-checking automatisés. 
Limites
- les données d'entraînement - La qualité et la diversité des données d'entraînement ont une influence considérable sur les capacités du modèle. Les biais ou les lacunes dans les données d'entraînement peuvent entraîner des limites dans les réponses du modèle.
- La portée de l'ensemble de données d'entraînement détermine les domaines que le modèle peut traiter efficacement.
 
- Ambiguïté et nuances linguistiques - Le langage naturel est intrinsèquement complexe. Les modèles peuvent avoir du mal à saisir les nuances subtiles, le sarcasme ou le langage figuré.
 
Considérations et risques éthiques
Risques identifiés et stratégies d'atténuation :
- Perpétuation des biais : il est recommandé d'effectuer une surveillance continue (à l'aide de métriques d'évaluation et de révisions humaines) et d'explorer les techniques de suppression des biais lors de l'entraînement et de l'affinage des modèles, ainsi que dans d'autres cas d'utilisation.
- Utilisation abusive à des fins malveillantes : les limites techniques et la formation des développeurs et des utilisateurs finaux peuvent contribuer à atténuer les applications malveillantes des embeddings. Des ressources pédagogiques et des mécanismes de signalement sont fournis aux utilisateurs pour leur permettre de signaler les utilisations abusives. Les utilisations interdites des modèles Gemma sont décrites dans le Règlement sur les utilisations interdites de Gemma.
- Atteintes à la confidentialité : les modèles ont été entraînés sur des données filtrées pour supprimer certaines informations personnelles et d'autres données sensibles. Nous encourageons les développeurs à respecter les réglementations sur la confidentialité en utilisant des techniques de préservation de la confidentialité.
Avantages
Au moment de la publication, cette famille de modèles fournit des implémentations de modèles d'embedding ouverts et performants, conçus dès le départ pour le développement responsable de l'IA par rapport aux modèles de taille similaire. À l'aide des métriques d'évaluation des benchmarks décrites dans ce document, ces modèles ont démontré des performances supérieures à celles d'autres alternatives de modèles ouverts de taille comparable.