Card de modelo do EmbeddingGemma

Página do modelo: EmbeddingGemma

Recursos e documentação técnica:

Termos de Uso: Termos

Autores: Google DeepMind

Informações do modelo

Descrição resumida e breve definição de entradas e saídas.

Descrição

O EmbeddingGemma é um modelo de incorporação aberto de 300 milhões de parâmetros, de última geração para o tamanho dele, do Google, criado com o Gemma 3 (com inicialização do T5Gemma) e a mesma pesquisa e tecnologia usadas para criar os modelos do Gemini. O EmbeddingGemma produz representações vetoriais de texto, o que o torna adequado para tarefas de pesquisa e recuperação, incluindo classificação, clustering e pesquisa de similaridade semântica. Esse modelo foi treinado com dados em mais de 100 idiomas falados.

O tamanho pequeno e o foco no dispositivo permitem a implantação em ambientes com recursos limitados, como smartphones, laptops ou computadores, democratizando o acesso a modelos de IA de última geração e ajudando a promover a inovação para todos.

Para mais detalhes técnicos, consulte nosso artigo: EmbeddingGemma: Powerful and Lightweight Text Representations.

Entradas e saídas

  • Entrada:

    • String de texto, como uma pergunta, um comando ou um documento a ser incorporado
    • Tamanho máximo de contexto de entrada de 2K
  • Saída:

    • Representações vetoriais numéricas de dados de texto de entrada
    • Tamanho da dimensão de embedding de saída de 768, com opções menores disponíveis (512, 256 ou 128) via Matryoshka Representation Learning (MRL). O MRL permite que os usuários truncem o embedding de saída de tamanho 768 para o tamanho desejado e depois normalizem novamente para uma representação eficiente e precisa.

Citação

@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}

Dados do modelo

Conjunto de dados de treinamento

Esse modelo foi treinado com um conjunto de dados de texto que inclui uma ampla variedade de fontes, totalizando aproximadamente 320 bilhões de tokens. Estes são os principais componentes:

  • Documentos da Web: uma coleção diversificada de textos da Web garante que o modelo seja exposto a uma ampla variedade de estilos linguísticos, tópicos e vocabulário. O conjunto de dados de treinamento inclui conteúdo em mais de 100 idiomas.
  • Código e documentos técnicos: expor o modelo a código e documentação técnica ajuda a aprender a estrutura e os padrões de linguagens de programação e conteúdo científico especializado, o que melhora a compreensão de código e questões técnicas.
  • Dados sintéticos e específicos da tarefa: os dados de treinamento sintéticos ajudam a ensinar habilidades específicas ao modelo. Isso inclui dados selecionados para tarefas como recuperação de informações, classificação e análise de sentimentos, o que ajuda a ajustar a performance para aplicações de incorporação comuns.

A combinação dessas diversas fontes de dados é crucial para treinar um modelo de incorporação multilíngue eficiente que possa lidar com uma ampla variedade de tarefas e formatos de dados diferentes.

Pré-processamento de dados

Estes são os principais métodos de limpeza e filtragem de dados aplicados aos dados de treinamento:

  • Filtragem de CSAM: uma filtragem rigorosa de CSAM (material de abuso sexual infantil) foi aplicada em várias etapas do processo de preparação de dados para garantir a exclusão de conteúdo prejudicial e ilegal.
  • Filtragem de dados sensíveis: como parte da criação de modelos pré-treinados seguros e confiáveis, técnicas automatizadas foram usadas para filtrar determinadas informações pessoais e outros dados sensíveis dos conjuntos de treinamento.
  • Outros métodos: filtragem com base na qualidade e segurança do conteúdo, de acordo com nossas políticas.

Desenvolvimento de modelos

Hardware

O EmbeddingGemma foi treinado usando a geração mais recente de hardware de Unidade de processamento de tensor (TPU) (TPUv5e). Para mais detalhes, consulte o card do modelo Gemma 3.

Software

O treinamento foi feito usando JAX e ML Pathways. Para mais detalhes, consulte o card de modelo do Gemma 3.

Avaliação

Resultados da comparação

O modelo foi avaliado em uma grande coleção de diferentes conjuntos de dados e métricas para abranger diferentes aspectos da compreensão de texto.

Checkpoint de precisão total

MTEB (multilíngue, v2)
Dimensionalidade Média (tarefa) Média (TaskType)
768d 61,15 54,31
512d 60,71 53,89
256d 59,68 53,01
128 dias 58,23 51,77
MTEB (inglês, v2)
Dimensionalidade Média (tarefa) Média (TaskType)
768d 69,67 65.11
512d 69,18 64,59
256d 68,37 64,02
128 dias 66,66 62,70
MTEB (Code, v1)
Dimensionalidade Média (tarefa) Média (TaskType)
768d 68,76 68,76
512d 68,48 68,48
256d 66,74 66,74
128 dias 62,96 62,96

Pontos de verificação da QAT

MTEB (multilíngue, v2)
Configuração de quantização (dimensionalidade) Média (tarefa) Média (TaskType)
Precisão mista* (768d) 60,69 53.82
Q8_0 (768d) 60,93 53,95
Q4_0 (768d) 60,62 53,61
MTEB (inglês, v2)
Configuração de quantização (dimensionalidade) Média (tarefa) Média (TaskType)
Precisão mista* (768d) 69,32 64,82
Q8_0 (768d) 69,49 64,84
Q4_0 (768d) 69,31 64,65
MTEB (Code, v1)
Configuração de quantização (dimensionalidade) Média (tarefa) Média (TaskType)
Precisão mista* (768d) 68,03 68,03
Q8_0 (768d) 68,70 68,70
Q4_0 (768d) 67,99 67,99

* Precisão mista se refere à quantização por canal com int4 para incorporações, feedforward e camadas de projeção, e int8 para atenção (e4_a8_f4_p4).

Instruções de comando

O EmbeddingGemma pode gerar embeddings otimizados para vários casos de uso, como recuperação de documentos, resposta a perguntas e verificação de fatos, ou para tipos de entrada específicos, seja uma consulta ou um documento, usando comandos que são adicionados às strings de entrada.

Os comandos de consulta seguem o formato task: {task description} | query:, em que a descrição da tarefa varia de acordo com o caso de uso. A descrição padrão é search result. Os comandos no estilo de documento seguem o formato title: {title | "none"} | text:, em que o título é none (o padrão) ou o título real do documento. Observação: fornecer um título, se disponível, melhora a performance do modelo para comandos de documentos, mas pode exigir formatação manual.

Use os comandos a seguir com base no seu caso de uso e no tipo de dados de entrada. Elas já podem estar disponíveis na configuração EmbeddingGemma no framework de modelagem de sua escolha.


Caso de uso (enumeração do tipo de tarefa)

Descrições

Comando recomendado

Recuperação (consulta)

Usado para gerar embeddings otimizados para pesquisa de documentos ou recuperação de informações

tarefa: resultado da pesquisa | consulta: {content}

Recuperação (documento)

title: {title | "none"} | text: {content}

Respostas a perguntas

task: question answering | query: {content}

Verificação de fatos

task: fact checking | query: {content}

Classificação

Usado para gerar embeddings otimizados para classificar textos de acordo com rótulos predefinidos

task: classification | query: {content}

Clustering

Usado para gerar embeddings otimizados para agrupar textos com base nas semelhanças deles

tarefa: clustering | consulta: {content}

Similaridade semântica

Usado para gerar embeddings otimizados para avaliar a similaridade de texto. Não é destinado a casos de uso de recuperação.

task: sentence similarity | query: {content}

Recuperação de código

Usado para recuperar um bloco de código com base em uma consulta de linguagem natural, como classificar uma matriz ou inverter uma lista vinculada. Os embeddings dos blocos de código são calculados usando "retrieval_document".

task: code retrieval | query: {content}

Uso e limitações

Esses modelos têm algumas limitações que os usuários precisam conhecer.

Uso pretendido

Os modelos de incorporação aberta têm uma ampla gama de aplicações em vários setores e domínios. A lista a seguir de possíveis usos não é abrangente. O objetivo dessa lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram como parte do treinamento e desenvolvimento do modelo.

  • Semelhança semântica: embeddings otimizados para avaliar a semelhança de texto, como sistemas de recomendação e detecção de duplicados.
  • Classificação: embeddings otimizados para classificar textos de acordo com rótulos predefinidos, como análise de sentimento e detecção de spam
  • Clustering: embeddings otimizados para agrupar textos com base nas semelhanças deles, como organização de documentos, pesquisa de mercado e detecção de anomalias
  • Recuperação

    • Documento: embeddings otimizados para pesquisa de documentos, como indexação de artigos, livros ou páginas da Web para pesquisa.
    • Consulta: embeddings otimizados para consultas de pesquisa gerais, como pesquisa personalizada
    • Consulta de código: incorporações otimizadas para recuperação de blocos de código com base em consultas de linguagem natural, como sugestões de código e pesquisa
  • Respostas a perguntas: incorporações para perguntas em um sistema de respostas a perguntas, otimizado para encontrar documentos que respondam à pergunta, como uma caixa de chat.

  • Verificação de fatos: incorporações para declarações que precisam ser verificadas, otimizadas para recuperar documentos que contenham evidências a favor ou contra a declaração, como sistemas automatizados de checagem de fatos.

Limitações

  • Dados de treinamento

    • A qualidade e a diversidade dos dados de treinamento influenciam significativamente as capacidades do modelo. Vieses ou lacunas nos dados de treinamento podem levar a limitações nas respostas do modelo.
    • O escopo do conjunto de dados de treinamento determina as áreas de assunto que o modelo pode processar com eficiência.
  • Ambiguidade e nuances da linguagem

    • A linguagem natural é inerentemente complexa. Os modelos podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.

Considerações e riscos éticos

Riscos identificados e mitigação:

  • Perpetuação de vieses: é recomendável realizar monitoramento contínuo (usando métricas de avaliação e revisão humana) e explorar técnicas de remoção de vieses durante o treinamento e ajuste fino do modelo, além de outros casos de uso.
  • Uso indevido para fins maliciosos: limitações técnicas e educação de desenvolvedores e usuários finais podem ajudar a reduzir aplicativos maliciosos de incorporações. Recursos educativos e mecanismos de denúncia estão disponíveis para os usuários sinalizarem o uso indevido. Os usos proibidos dos modelos Gemma estão descritos na Política de uso proibido do Gemma.
  • Violações de privacidade: os modelos foram treinados com dados filtrados para remoção de determinadas informações pessoais e outros dados sensíveis. Os desenvolvedores são incentivados a obedecer às regulamentações de privacidade com técnicas de preservação da privacidade.

Vantagens

No momento do lançamento, essa família de modelos oferece implementações de modelos de incorporação abertos de alta performance projetados do zero para o desenvolvimento de IA responsável em comparação com modelos de tamanho semelhante. Usando as métricas de avaliação de comparativo descritas neste documento, esses modelos mostraram desempenho superior a outras alternativas de modelos abertos de tamanho comparável.