Página del modelo: EmbeddingGemma
Recursos y documentación técnica:
- Kit de herramientas de IA generativa responsable
- EmbeddingGemma en Kaggle
- EmbeddingGemma en Vertex Model Garden
Condiciones de Uso: Condiciones
Autores: Google DeepMind
Información del modelo
Descripción resumida y breve definición de las entradas y salidas
Descripción
EmbeddingGemma es un modelo de incorporación abierto de vanguardia para su tamaño, con 300 millones de parámetros, de Google, creado a partir de Gemma 3 (con inicialización de T5Gemma) y la misma investigación y tecnología que se utilizaron para crear los modelos de Gemini. EmbeddingGemma produce representaciones vectoriales de texto, lo que lo hace adecuado para tareas de búsqueda y recuperación, incluidas la clasificación, el agrupamiento en clústeres y la búsqueda de similitud semántica. Este modelo se entrenó con datos en más de 100 idiomas hablados.
Su tamaño pequeño y su enfoque en el dispositivo permiten implementarlo en entornos con recursos limitados, como teléfonos celulares, laptops o computadoras de escritorio, lo que democratiza el acceso a modelos de IA de vanguardia y fomenta la innovación para todos.
Para obtener más detalles técnicos, consulta nuestro documento EmbeddingGemma: Powerful and Lightweight Text Representations.
Entradas y salidas
Entrada:
- Cadena de texto, como una pregunta, una instrucción o un documento que se incorporará
- Longitud máxima del contexto de entrada de 2,000
Resultado:
- Representaciones vectoriales numéricas de los datos de texto de entrada
- Tamaño de la dimensión de la incorporación de salida de 768, con opciones más pequeñas disponibles (512, 256 o 128) a través del aprendizaje de representación de Matryoshka (MRL). El MRL permite a los usuarios truncar la incorporación de salida de tamaño 768 al tamaño deseado y, luego, volver a normalizarla para obtener una representación eficiente y precisa.
Cita
@article{embedding_gemma_2025,
title={EmbeddingGemma: Powerful and Lightweight Text Representations},
publisher={Google DeepMind},
author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
year={2025},
url={https://arxiv.org/abs/2509.20354}
}
Modelar datos
Conjunto de datos de entrenamiento
Este modelo se entrenó con un conjunto de datos de texto que incluye una amplia variedad de fuentes, con un total aproximado de 320,000 millones de tokens. Estos son los componentes clave:
- Documentos web: Una colección diversa de texto web garantiza que el modelo se exponga a una amplia variedad de estilos lingüísticos, temas y vocabulario. El conjunto de datos de entrenamiento incluye contenido en más de 100 idiomas.
- Código y documentos técnicos: Exponer el modelo a código y documentación técnica lo ayuda a aprender la estructura y los patrones de los lenguajes de programación y el contenido científico especializado, lo que mejora su comprensión del código y las preguntas técnicas.
- Datos sintéticos y específicos de la tarea: Los datos de entrenamiento sintéticos ayudan a enseñarle al modelo habilidades específicas. Esto incluye datos seleccionados para tareas como la recuperación de información, la clasificación y el análisis de opiniones, lo que ayuda a ajustar su rendimiento para aplicaciones de incorporación comunes.
La combinación de estas diversas fuentes de datos es fundamental para entrenar un potente modelo de incorporación multilingüe que pueda manejar una amplia variedad de tareas y formatos de datos diferentes.
Procesamiento previo de los datos
A continuación, se indican los principales métodos de limpieza y filtrado de datos que se aplican a los datos de entrenamiento:
- Filtrado de CSAM: Se aplicó un filtrado riguroso de CSAM (material de abuso sexual infantil) en varias etapas del proceso de preparación de datos para garantizar la exclusión de contenido dañino e ilegal.
- Filtrado de datos sensibles: Como parte de los esfuerzos para que los modelos previamente entrenados de Gemma sean seguros y confiables, se utilizaron técnicas automatizadas para filtrar cierta información personal y otros datos sensibles de los conjuntos de entrenamiento.
- Métodos adicionales: Filtrado basado en la calidad y la seguridad del contenido de acuerdo con nuestras políticas
Desarrollo de modelos
Hardware
EmbeddingGemma se entrenó con la última generación de hardware de unidad de procesamiento tensorial (TPU) (TPUv5e). Para obtener más detalles, consulta la tarjeta del modelo Gemma 3.
Software
El entrenamiento se realizó con JAX y ML Pathways. Para obtener más detalles, consulta la tarjeta de modelo de Gemma 3.
Evaluación
Resultados de comparativas
El modelo se evaluó con una gran colección de diferentes conjuntos de datos y métricas para abarcar diferentes aspectos de la comprensión del texto.
Punto de control de precisión completa
| MTEB (multilingüe, versión 2) | ||
|---|---|---|
| Dimensionalidad | Promedio (tarea) | Media (TaskType) |
| 768d | 61.15 | 54.31 |
| 512d | 60.71 | 53.89 |
| 256 d | 59.68 | 53.01 |
| 128 días | 58.23 | 51.77 |
| MTEB (inglés, v2) | ||
|---|---|---|
| Dimensionalidad | Promedio (tarea) | Media (TaskType) |
| 768d | 69.67 | 65.11 |
| 512d | 69.18 | 64.59 |
| 256 d | 68.37 | 64.02 |
| 128 días | 66.66 | 62.70 |
| MTEB (Code, v1) | ||
|---|---|---|
| Dimensionalidad | Promedio (tarea) | Media (TaskType) |
| 768d | 68.76 | 68.76 |
| 512d | 68.48 | 68.48 |
| 256 d | 66.74 | 66.74 |
| 128 días | 62.96 | 62.96 |
Puntos de control de QAT
| MTEB (multilingüe, versión 2) | ||
|---|---|---|
| Configuración de la cuantificación (dimensionalidad) | Promedio (tarea) | Media (TaskType) |
| Precisión mixta* (768 d) | 60.69 | 53.82 |
| Q8_0 (768d) | 60.93 | 53.95 |
| Q4_0 (768 d) | 60.62 | 53.61 |
| MTEB (inglés, v2) | ||
|---|---|---|
| Configuración de la cuantificación (dimensionalidad) | Promedio (tarea) | Media (TaskType) |
| Precisión mixta* (768 d) | 69.32 | 64.82 |
| Q8_0 (768d) | 69.49 | 64.84 |
| Q4_0 (768 d) | 69.31 | 64.65 |
| MTEB (Code, v1) | ||
|---|---|---|
| Configuración de la cuantificación (dimensionalidad) | Promedio (tarea) | Media (TaskType) |
| Precisión mixta* (768 d) | 68.03 | 68.03 |
| Q8_0 (768d) | 68.70 | 68.70 |
| Q4_0 (768 d) | 67.99 | 67.99 |
* La precisión mixta se refiere a la cuantización por canal con int4 para las capas de incorporaciones, avance y proyección, y con int8 para la atención (e4_a8_f4_p4).
Instrucciones de la instrucción
EmbeddingGemma puede generar embeddings optimizados para varios casos de uso, como la recuperación de documentos, la búsqueda de respuestas y la verificación de hechos, o para tipos de entrada específicos (ya sea una búsqueda o un documento) con instrucciones que se anteponen a las cadenas de entrada.
Las instrucciones de consulta siguen el formato task: {task description} | query:, en el que la descripción de la tarea varía según el caso de uso, y la descripción de la tarea predeterminada es search result. Las instrucciones de estilo de documento siguen el formato title: {title | "none"} | text:, en el que el título es none (el valor predeterminado) o el título real del documento. Ten en cuenta que proporcionar un título, si está disponible, mejorará el rendimiento del modelo para las instrucciones de documentos, pero es posible que requiera un formato manual.
Usa las siguientes instrucciones según tu caso de uso y el tipo de datos de entrada. Es posible que ya estén disponibles en la configuración de EmbeddingGemma en el framework de modelado que elijas.
Caso de uso (enumeración del tipo de tarea) |
Descripciones |
Instrucción recomendada |
|---|---|---|
Recuperación (consulta) |
Se usa para generar embeddings optimizados para la búsqueda de documentos o la recuperación de información |
task: search result | query: {content} |
Recuperación (documento) |
title: {title | "none"} | text: {content} |
|
Búsqueda de respuestas |
task: question answering | query: {content} |
|
Verificación de datos |
tarea: verificación de datos | consulta: {content} |
|
Clasificación |
Se usa para generar embeddings optimizados para clasificar textos según las etiquetas predeterminadas |
tarea: clasificación | consulta: {content} |
Agrupamiento |
Se usa para generar embeddings que están optimizados para agrupar textos en función de sus similitudes. |
tarea: clustering | consulta: {content} |
Similitud semántica |
Se usa para generar embeddings optimizados para evaluar la similitud del texto. No está diseñado para casos de uso de recuperación. |
tarea: similitud de oraciones | consulta: {content} |
Recuperación de código |
Se usa para recuperar un bloque de código basado en una búsqueda en lenguaje natural, como ordenar un array o invertir una lista vinculada. Los embeddings de los bloques de código se calculan con retrieval_document. |
task: code retrieval | query: {content} |
Uso y limitaciones
Estos modelos tienen ciertas limitaciones que los usuarios deben conocer.
Uso previsto
Los modelos de lenguaje abierto basados en embeddings tienen una amplia variedad de aplicaciones en diferentes industrias y dominios. La siguiente lista de posibles usos no es exhaustiva. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores del modelo consideraron como parte del entrenamiento y el desarrollo del modelo.
- Similitud semántica: Embeddings optimizados para evaluar la similitud del texto, como los sistemas de recomendación y la detección de duplicados
- Clasificación: Incorporaciones optimizadas para clasificar textos según etiquetas predeterminadas, como el análisis de opiniones y la detección de spam
- Agrupamiento en clústeres: Son embeddings optimizados para agrupar textos en función de sus similitudes, como la organización de documentos, la investigación de mercado y la detección de anomalías.
Recuperación
- Document: Incorporaciones optimizadas para la búsqueda de documentos, como la indexación de artículos, libros o páginas web para la búsqueda
- Consulta: Embeddings optimizados para consultas de búsqueda generales, como la búsqueda personalizada
- Code Query: Es un modelo de lenguaje natural que genera embeddings optimizados para recuperar bloques de código en función de consultas en lenguaje natural, como sugerencias de código y búsquedas.
Búsqueda de respuestas: Son las incorporaciones para preguntas en un sistema de búsqueda de respuestas, optimizadas para encontrar documentos que respondan la pregunta, como un chatbot.
Verificación de hechos: Son las incorporaciones para las declaraciones que deben verificarse, optimizadas para recuperar documentos que contienen evidencia que respalda o refuta la declaración, como los sistemas automatizados de verificación de hechos.
Limitaciones
Datos de entrenamiento
- La calidad y la diversidad de los datos de entrenamiento influyen significativamente en las capacidades del modelo. Los sesgos o las brechas en los datos de entrenamiento pueden generar limitaciones en las respuestas del modelo.
- El alcance del conjunto de datos de entrenamiento determina las áreas temáticas que el modelo puede abordar de manera eficaz.
Ambigüedad y matices del lenguaje
- El lenguaje natural es inherentemente complejo. Es posible que los modelos tengan dificultades para comprender matices sutiles, sarcasmo o lenguaje figurativo.
Consideraciones y riesgos éticos
Riesgos identificados y mitigaciones:
- Perpetuación de sesgos: Se recomienda realizar un monitoreo continuo (con métricas de evaluación y revisión humana) y explorar técnicas de reducción de sesgos durante el entrenamiento, el ajuste y otros casos de uso del modelo.
- Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la capacitación de los desarrolladores y los usuarios finales pueden ayudar a mitigar las aplicaciones maliciosas de las incorporaciones. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado. Los usos prohibidos de los modelos de Gemma se describen en la Política de Uso Prohibido de Gemma.
- Incumplimientos de la privacidad: Los modelos se entrenaron con datos filtrados para quitar cierta información personal y otros datos sensibles. Se recomienda a los desarrolladores que cumplan con las reglamentaciones de privacidad utilizando técnicas que preserven la privacidad.
Beneficios
En el momento del lanzamiento, esta familia de modelos proporciona implementaciones de modelos de incorporación abiertos de alto rendimiento diseñados desde cero para el desarrollo de la IA responsable en comparación con los modelos de tamaño similar. Con las métricas de evaluación de comparativas que se describen en este documento, estos modelos demostraron un rendimiento superior al de otras alternativas de modelos abiertos de tamaño comparable.