Tarjeta de modelo de EmbeddingGemma

Página del modelo: EmbeddingGemma

Recursos y documentación técnica:

Condiciones de Uso: Condiciones

Autores: Google DeepMind

Información del modelo

Descripción resumida y breve definición de las entradas y salidas

Descripción

EmbeddingGemma es un modelo de incorporación abierto de vanguardia para su tamaño, con 300 millones de parámetros, de Google, creado a partir de Gemma 3 (con inicialización de T5Gemma) y la misma investigación y tecnología que se utilizaron para crear los modelos de Gemini. EmbeddingGemma produce representaciones vectoriales de texto, lo que lo hace adecuado para tareas de búsqueda y recuperación, incluidas la clasificación, el agrupamiento en clústeres y la búsqueda de similitud semántica. Este modelo se entrenó con datos en más de 100 idiomas hablados.

Su tamaño pequeño y su enfoque en el dispositivo permiten implementarlo en entornos con recursos limitados, como teléfonos celulares, laptops o computadoras de escritorio, lo que democratiza el acceso a modelos de IA de vanguardia y fomenta la innovación para todos.

Para obtener más detalles técnicos, consulta nuestro documento EmbeddingGemma: Powerful and Lightweight Text Representations.

Entradas y salidas

  • Entrada:

    • Cadena de texto, como una pregunta, una instrucción o un documento que se incorporará
    • Longitud máxima del contexto de entrada de 2,000
  • Resultado:

    • Representaciones vectoriales numéricas de los datos de texto de entrada
    • Tamaño de la dimensión de la incorporación de salida de 768, con opciones más pequeñas disponibles (512, 256 o 128) a través del aprendizaje de representación de Matryoshka (MRL). El MRL permite a los usuarios truncar la incorporación de salida de tamaño 768 al tamaño deseado y, luego, volver a normalizarla para obtener una representación eficiente y precisa.

Cita

@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}

Modelar datos

Conjunto de datos de entrenamiento

Este modelo se entrenó con un conjunto de datos de texto que incluye una amplia variedad de fuentes, con un total aproximado de 320,000 millones de tokens. Estos son los componentes clave:

  • Documentos web: Una colección diversa de texto web garantiza que el modelo se exponga a una amplia variedad de estilos lingüísticos, temas y vocabulario. El conjunto de datos de entrenamiento incluye contenido en más de 100 idiomas.
  • Código y documentos técnicos: Exponer el modelo a código y documentación técnica lo ayuda a aprender la estructura y los patrones de los lenguajes de programación y el contenido científico especializado, lo que mejora su comprensión del código y las preguntas técnicas.
  • Datos sintéticos y específicos de la tarea: Los datos de entrenamiento sintéticos ayudan a enseñarle al modelo habilidades específicas. Esto incluye datos seleccionados para tareas como la recuperación de información, la clasificación y el análisis de opiniones, lo que ayuda a ajustar su rendimiento para aplicaciones de incorporación comunes.

La combinación de estas diversas fuentes de datos es fundamental para entrenar un potente modelo de incorporación multilingüe que pueda manejar una amplia variedad de tareas y formatos de datos diferentes.

Procesamiento previo de los datos

A continuación, se indican los principales métodos de limpieza y filtrado de datos que se aplican a los datos de entrenamiento:

  • Filtrado de CSAM: Se aplicó un filtrado riguroso de CSAM (material de abuso sexual infantil) en varias etapas del proceso de preparación de datos para garantizar la exclusión de contenido dañino e ilegal.
  • Filtrado de datos sensibles: Como parte de los esfuerzos para que los modelos previamente entrenados de Gemma sean seguros y confiables, se utilizaron técnicas automatizadas para filtrar cierta información personal y otros datos sensibles de los conjuntos de entrenamiento.
  • Métodos adicionales: Filtrado basado en la calidad y la seguridad del contenido de acuerdo con nuestras políticas

Desarrollo de modelos

Hardware

EmbeddingGemma se entrenó con la última generación de hardware de unidad de procesamiento tensorial (TPU) (TPUv5e). Para obtener más detalles, consulta la tarjeta del modelo Gemma 3.

Software

El entrenamiento se realizó con JAX y ML Pathways. Para obtener más detalles, consulta la tarjeta de modelo de Gemma 3.

Evaluación

Resultados de comparativas

El modelo se evaluó con una gran colección de diferentes conjuntos de datos y métricas para abarcar diferentes aspectos de la comprensión del texto.

Punto de control de precisión completa

MTEB (multilingüe, versión 2)
Dimensionalidad Promedio (tarea) Media (TaskType)
768d 61.15 54.31
512d 60.71 53.89
256 d 59.68 53.01
128 días 58.23 51.77
MTEB (inglés, v2)
Dimensionalidad Promedio (tarea) Media (TaskType)
768d 69.67 65.11
512d 69.18 64.59
256 d 68.37 64.02
128 días 66.66 62.70
MTEB (Code, v1)
Dimensionalidad Promedio (tarea) Media (TaskType)
768d 68.76 68.76
512d 68.48 68.48
256 d 66.74 66.74
128 días 62.96 62.96

Puntos de control de QAT

MTEB (multilingüe, versión 2)
Configuración de la cuantificación (dimensionalidad) Promedio (tarea) Media (TaskType)
Precisión mixta* (768 d) 60.69 53.82
Q8_0 (768d) 60.93 53.95
Q4_0 (768 d) 60.62 53.61
MTEB (inglés, v2)
Configuración de la cuantificación (dimensionalidad) Promedio (tarea) Media (TaskType)
Precisión mixta* (768 d) 69.32 64.82
Q8_0 (768d) 69.49 64.84
Q4_0 (768 d) 69.31 64.65
MTEB (Code, v1)
Configuración de la cuantificación (dimensionalidad) Promedio (tarea) Media (TaskType)
Precisión mixta* (768 d) 68.03 68.03
Q8_0 (768d) 68.70 68.70
Q4_0 (768 d) 67.99 67.99

* La precisión mixta se refiere a la cuantización por canal con int4 para las capas de incorporaciones, avance y proyección, y con int8 para la atención (e4_a8_f4_p4).

Instrucciones de la instrucción

EmbeddingGemma puede generar embeddings optimizados para varios casos de uso, como la recuperación de documentos, la búsqueda de respuestas y la verificación de hechos, o para tipos de entrada específicos (ya sea una búsqueda o un documento) con instrucciones que se anteponen a las cadenas de entrada.

Las instrucciones de consulta siguen el formato task: {task description} | query:, en el que la descripción de la tarea varía según el caso de uso, y la descripción de la tarea predeterminada es search result. Las instrucciones de estilo de documento siguen el formato title: {title | "none"} | text:, en el que el título es none (el valor predeterminado) o el título real del documento. Ten en cuenta que proporcionar un título, si está disponible, mejorará el rendimiento del modelo para las instrucciones de documentos, pero es posible que requiera un formato manual.

Usa las siguientes instrucciones según tu caso de uso y el tipo de datos de entrada. Es posible que ya estén disponibles en la configuración de EmbeddingGemma en el framework de modelado que elijas.


Caso de uso (enumeración del tipo de tarea)

Descripciones

Instrucción recomendada

Recuperación (consulta)

Se usa para generar embeddings optimizados para la búsqueda de documentos o la recuperación de información

task: search result | query: {content}

Recuperación (documento)

title: {title | "none"} | text: {content}

Búsqueda de respuestas

task: question answering | query: {content}

Verificación de datos

tarea: verificación de datos | consulta: {content}

Clasificación

Se usa para generar embeddings optimizados para clasificar textos según las etiquetas predeterminadas

tarea: clasificación | consulta: {content}

Agrupamiento

Se usa para generar embeddings que están optimizados para agrupar textos en función de sus similitudes.

tarea: clustering | consulta: {content}

Similitud semántica

Se usa para generar embeddings optimizados para evaluar la similitud del texto. No está diseñado para casos de uso de recuperación.

tarea: similitud de oraciones | consulta: {content}

Recuperación de código

Se usa para recuperar un bloque de código basado en una búsqueda en lenguaje natural, como ordenar un array o invertir una lista vinculada. Los embeddings de los bloques de código se calculan con retrieval_document.

task: code retrieval | query: {content}

Uso y limitaciones

Estos modelos tienen ciertas limitaciones que los usuarios deben conocer.

Uso previsto

Los modelos de lenguaje abierto basados en embeddings tienen una amplia variedad de aplicaciones en diferentes industrias y dominios. La siguiente lista de posibles usos no es exhaustiva. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores del modelo consideraron como parte del entrenamiento y el desarrollo del modelo.

  • Similitud semántica: Embeddings optimizados para evaluar la similitud del texto, como los sistemas de recomendación y la detección de duplicados
  • Clasificación: Incorporaciones optimizadas para clasificar textos según etiquetas predeterminadas, como el análisis de opiniones y la detección de spam
  • Agrupamiento en clústeres: Son embeddings optimizados para agrupar textos en función de sus similitudes, como la organización de documentos, la investigación de mercado y la detección de anomalías.
  • Recuperación

    • Document: Incorporaciones optimizadas para la búsqueda de documentos, como la indexación de artículos, libros o páginas web para la búsqueda
    • Consulta: Embeddings optimizados para consultas de búsqueda generales, como la búsqueda personalizada
    • Code Query: Es un modelo de lenguaje natural que genera embeddings optimizados para recuperar bloques de código en función de consultas en lenguaje natural, como sugerencias de código y búsquedas.
  • Búsqueda de respuestas: Son las incorporaciones para preguntas en un sistema de búsqueda de respuestas, optimizadas para encontrar documentos que respondan la pregunta, como un chatbot.

  • Verificación de hechos: Son las incorporaciones para las declaraciones que deben verificarse, optimizadas para recuperar documentos que contienen evidencia que respalda o refuta la declaración, como los sistemas automatizados de verificación de hechos.

Limitaciones

  • Datos de entrenamiento

    • La calidad y la diversidad de los datos de entrenamiento influyen significativamente en las capacidades del modelo. Los sesgos o las brechas en los datos de entrenamiento pueden generar limitaciones en las respuestas del modelo.
    • El alcance del conjunto de datos de entrenamiento determina las áreas temáticas que el modelo puede abordar de manera eficaz.
  • Ambigüedad y matices del lenguaje

    • El lenguaje natural es inherentemente complejo. Es posible que los modelos tengan dificultades para comprender matices sutiles, sarcasmo o lenguaje figurativo.

Consideraciones y riesgos éticos

Riesgos identificados y mitigaciones:

  • Perpetuación de sesgos: Se recomienda realizar un monitoreo continuo (con métricas de evaluación y revisión humana) y explorar técnicas de reducción de sesgos durante el entrenamiento, el ajuste y otros casos de uso del modelo.
  • Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la capacitación de los desarrolladores y los usuarios finales pueden ayudar a mitigar las aplicaciones maliciosas de las incorporaciones. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado. Los usos prohibidos de los modelos de Gemma se describen en la Política de Uso Prohibido de Gemma.
  • Incumplimientos de la privacidad: Los modelos se entrenaron con datos filtrados para quitar cierta información personal y otros datos sensibles. Se recomienda a los desarrolladores que cumplan con las reglamentaciones de privacidad utilizando técnicas que preserven la privacidad.

Beneficios

En el momento del lanzamiento, esta familia de modelos proporciona implementaciones de modelos de incorporación abiertos de alto rendimiento diseñados desde cero para el desarrollo de la IA responsable en comparación con los modelos de tamaño similar. Con las métricas de evaluación de comparativas que se describen en este documento, estos modelos demostraron un rendimiento superior al de otras alternativas de modelos abiertos de tamaño comparable.