Página do modelo: EmbeddingGemma
Recursos e documentação técnica:
- Toolkit para IA generativa responsável
- EmbeddingGemma no Kaggle
- EmbeddingGemma no Model Garden da Vertex
Termos de Uso: Termos
Autores: Google DeepMind
Informações do modelo
Descrição resumida e breve definição de entradas e saídas.
Descrição
O EmbeddingGemma é um modelo de incorporação aberto de 300 milhões de parâmetros, de última geração para o tamanho dele, do Google, criado com o Gemma 3 (com inicialização do T5Gemma) e a mesma pesquisa e tecnologia usadas para criar os modelos do Gemini. O EmbeddingGemma produz representações vetoriais de texto, o que o torna adequado para tarefas de pesquisa e recuperação, incluindo classificação, clustering e pesquisa de similaridade semântica. Esse modelo foi treinado com dados em mais de 100 idiomas falados.
O tamanho pequeno e o foco no dispositivo permitem a implantação em ambientes com recursos limitados, como smartphones, laptops ou computadores, democratizando o acesso a modelos de IA de última geração e ajudando a promover a inovação para todos.
Para mais detalhes técnicos, consulte nosso artigo: EmbeddingGemma: Powerful and Lightweight Text Representations.
Entradas e saídas
Entrada:
- String de texto, como uma pergunta, um comando ou um documento a ser incorporado
- Tamanho máximo de contexto de entrada de 2K
Saída:
- Representações vetoriais numéricas de dados de texto de entrada
- Tamanho da dimensão de embedding de saída de 768, com opções menores disponíveis (512, 256 ou 128) via Matryoshka Representation Learning (MRL). O MRL permite que os usuários truncem o embedding de saída de tamanho 768 para o tamanho desejado e depois normalizem novamente para uma representação eficiente e precisa.
Citação
@article{embedding_gemma_2025,
title={EmbeddingGemma: Powerful and Lightweight Text Representations},
publisher={Google DeepMind},
author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
year={2025},
url={https://arxiv.org/abs/2509.20354}
}
Dados do modelo
Conjunto de dados de treinamento
Esse modelo foi treinado com um conjunto de dados de texto que inclui uma ampla variedade de fontes, totalizando aproximadamente 320 bilhões de tokens. Estes são os principais componentes:
- Documentos da Web: uma coleção diversificada de textos da Web garante que o modelo seja exposto a uma ampla variedade de estilos linguísticos, tópicos e vocabulário. O conjunto de dados de treinamento inclui conteúdo em mais de 100 idiomas.
- Código e documentos técnicos: expor o modelo a código e documentação técnica ajuda a aprender a estrutura e os padrões de linguagens de programação e conteúdo científico especializado, o que melhora a compreensão de código e questões técnicas.
- Dados sintéticos e específicos da tarefa: os dados de treinamento sintéticos ajudam a ensinar habilidades específicas ao modelo. Isso inclui dados selecionados para tarefas como recuperação de informações, classificação e análise de sentimentos, o que ajuda a ajustar a performance para aplicações de incorporação comuns.
A combinação dessas diversas fontes de dados é crucial para treinar um modelo de incorporação multilíngue eficiente que possa lidar com uma ampla variedade de tarefas e formatos de dados diferentes.
Pré-processamento de dados
Estes são os principais métodos de limpeza e filtragem de dados aplicados aos dados de treinamento:
- Filtragem de CSAM: uma filtragem rigorosa de CSAM (material de abuso sexual infantil) foi aplicada em várias etapas do processo de preparação de dados para garantir a exclusão de conteúdo prejudicial e ilegal.
- Filtragem de dados sensíveis: como parte da criação de modelos pré-treinados seguros e confiáveis, técnicas automatizadas foram usadas para filtrar determinadas informações pessoais e outros dados sensíveis dos conjuntos de treinamento.
- Outros métodos: filtragem com base na qualidade e segurança do conteúdo, de acordo com nossas políticas.
Desenvolvimento de modelos
Hardware
O EmbeddingGemma foi treinado usando a geração mais recente de hardware de Unidade de processamento de tensor (TPU) (TPUv5e). Para mais detalhes, consulte o card do modelo Gemma 3.
Software
O treinamento foi feito usando JAX e ML Pathways. Para mais detalhes, consulte o card de modelo do Gemma 3.
Avaliação
Resultados da comparação
O modelo foi avaliado em uma grande coleção de diferentes conjuntos de dados e métricas para abranger diferentes aspectos da compreensão de texto.
Checkpoint de precisão total
MTEB (multilíngue, v2) | ||
---|---|---|
Dimensionalidade | Média (tarefa) | Média (TaskType) |
768d | 61,15 | 54,31 |
512d | 60,71 | 53,89 |
256d | 59,68 | 53,01 |
128 dias | 58,23 | 51,77 |
MTEB (inglês, v2) | ||
---|---|---|
Dimensionalidade | Média (tarefa) | Média (TaskType) |
768d | 69,67 | 65.11 |
512d | 69,18 | 64,59 |
256d | 68,37 | 64,02 |
128 dias | 66,66 | 62,70 |
MTEB (Code, v1) | ||
---|---|---|
Dimensionalidade | Média (tarefa) | Média (TaskType) |
768d | 68,76 | 68,76 |
512d | 68,48 | 68,48 |
256d | 66,74 | 66,74 |
128 dias | 62,96 | 62,96 |
Pontos de verificação da QAT
MTEB (multilíngue, v2) | ||
---|---|---|
Configuração de quantização (dimensionalidade) | Média (tarefa) | Média (TaskType) |
Precisão mista* (768d) | 60,69 | 53.82 |
Q8_0 (768d) | 60,93 | 53,95 |
Q4_0 (768d) | 60,62 | 53,61 |
MTEB (inglês, v2) | ||
---|---|---|
Configuração de quantização (dimensionalidade) | Média (tarefa) | Média (TaskType) |
Precisão mista* (768d) | 69,32 | 64,82 |
Q8_0 (768d) | 69,49 | 64,84 |
Q4_0 (768d) | 69,31 | 64,65 |
MTEB (Code, v1) | ||
---|---|---|
Configuração de quantização (dimensionalidade) | Média (tarefa) | Média (TaskType) |
Precisão mista* (768d) | 68,03 | 68,03 |
Q8_0 (768d) | 68,70 | 68,70 |
Q4_0 (768d) | 67,99 | 67,99 |
* Precisão mista se refere à quantização por canal com int4 para incorporações, feedforward e camadas de projeção, e int8 para atenção (e4_a8_f4_p4).
Instruções de comando
O EmbeddingGemma pode gerar embeddings otimizados para vários casos de uso, como recuperação de documentos, resposta a perguntas e verificação de fatos, ou para tipos de entrada específicos, seja uma consulta ou um documento, usando comandos que são adicionados às strings de entrada.
Os comandos de consulta seguem o formato task: {task description} | query:
, em que a descrição da tarefa varia de acordo com o caso de uso. A descrição padrão é search result
. Os comandos no estilo de documento seguem o formato
title: {title | "none"} | text:
, em que o título é none
(o
padrão) ou o título real do documento. Observação: fornecer um título, se disponível, melhora a performance do modelo para comandos de documentos, mas pode exigir formatação manual.
Use os comandos a seguir com base no seu caso de uso e no tipo de dados de entrada. Elas já podem estar disponíveis na configuração EmbeddingGemma no framework de modelagem de sua escolha.
Caso de uso (enumeração do tipo de tarefa) |
Descrições |
Comando recomendado |
---|---|---|
Recuperação (consulta) |
Usado para gerar embeddings otimizados para pesquisa de documentos ou recuperação de informações |
tarefa: resultado da pesquisa | consulta: {content} |
Recuperação (documento) |
title: {title | "none"} | text: {content} |
|
Respostas a perguntas |
task: question answering | query: {content} |
|
Verificação de fatos |
task: fact checking | query: {content} |
|
Classificação |
Usado para gerar embeddings otimizados para classificar textos de acordo com rótulos predefinidos |
task: classification | query: {content} |
Clustering |
Usado para gerar embeddings otimizados para agrupar textos com base nas semelhanças deles |
tarefa: clustering | consulta: {content} |
Similaridade semântica |
Usado para gerar embeddings otimizados para avaliar a similaridade de texto. Não é destinado a casos de uso de recuperação. |
task: sentence similarity | query: {content} |
Recuperação de código |
Usado para recuperar um bloco de código com base em uma consulta de linguagem natural, como classificar uma matriz ou inverter uma lista vinculada. Os embeddings dos blocos de código são calculados usando "retrieval_document". |
task: code retrieval | query: {content} |
Uso e limitações
Esses modelos têm algumas limitações que os usuários precisam conhecer.
Uso pretendido
Os modelos de incorporação aberta têm uma ampla gama de aplicações em vários setores e domínios. A lista a seguir de possíveis usos não é abrangente. O objetivo dessa lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram como parte do treinamento e desenvolvimento do modelo.
- Semelhança semântica: embeddings otimizados para avaliar a semelhança de texto, como sistemas de recomendação e detecção de duplicados.
- Classificação: embeddings otimizados para classificar textos de acordo com rótulos predefinidos, como análise de sentimento e detecção de spam
- Clustering: embeddings otimizados para agrupar textos com base nas semelhanças deles, como organização de documentos, pesquisa de mercado e detecção de anomalias
Recuperação
- Documento: embeddings otimizados para pesquisa de documentos, como indexação de artigos, livros ou páginas da Web para pesquisa.
- Consulta: embeddings otimizados para consultas de pesquisa gerais, como pesquisa personalizada
- Consulta de código: incorporações otimizadas para recuperação de blocos de código com base em consultas de linguagem natural, como sugestões de código e pesquisa
Respostas a perguntas: incorporações para perguntas em um sistema de respostas a perguntas, otimizado para encontrar documentos que respondam à pergunta, como uma caixa de chat.
Verificação de fatos: incorporações para declarações que precisam ser verificadas, otimizadas para recuperar documentos que contenham evidências a favor ou contra a declaração, como sistemas automatizados de checagem de fatos.
Limitações
Dados de treinamento
- A qualidade e a diversidade dos dados de treinamento influenciam significativamente as capacidades do modelo. Vieses ou lacunas nos dados de treinamento podem levar a limitações nas respostas do modelo.
- O escopo do conjunto de dados de treinamento determina as áreas de assunto que o modelo pode processar com eficiência.
Ambiguidade e nuances da linguagem
- A linguagem natural é inerentemente complexa. Os modelos podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
Considerações e riscos éticos
Riscos identificados e mitigação:
- Perpetuação de vieses: é recomendável realizar monitoramento contínuo (usando métricas de avaliação e revisão humana) e explorar técnicas de remoção de vieses durante o treinamento e ajuste fino do modelo, além de outros casos de uso.
- Uso indevido para fins maliciosos: limitações técnicas e educação de desenvolvedores e usuários finais podem ajudar a reduzir aplicativos maliciosos de incorporações. Recursos educativos e mecanismos de denúncia estão disponíveis para os usuários sinalizarem o uso indevido. Os usos proibidos dos modelos Gemma estão descritos na Política de uso proibido do Gemma.
- Violações de privacidade: os modelos foram treinados com dados filtrados para remoção de determinadas informações pessoais e outros dados sensíveis. Os desenvolvedores são incentivados a obedecer às regulamentações de privacidade com técnicas de preservação da privacidade.
Vantagens
No momento do lançamento, essa família de modelos oferece implementações de modelos de incorporação abertos de alta performance projetados do zero para o desenvolvimento de IA responsável em comparação com modelos de tamanho semelhante. Usando as métricas de avaliação de comparativo descritas neste documento, esses modelos mostraram desempenho superior a outras alternativas de modelos abertos de tamanho comparável.