Pagina del modello: EmbeddingGemma
Risorse e documentazione tecnica:
Termini d'uso: Termini
Autori: Google DeepMind
Informazioni sul modello
Descrizione riassuntiva e breve definizione di input e output.
Descrizione
EmbeddingGemma è un modello di embedding aperto all'avanguardia per le sue dimensioni, con 300 milioni di parametri, sviluppato da Google a partire da Gemma 3 (con inizializzazione T5Gemma) e dalla stessa ricerca e tecnologia utilizzate per creare i modelli Gemini. EmbeddingGemma produce rappresentazioni vettoriali del testo, il che lo rende adatto per attività di ricerca e recupero, tra cui classificazione, clustering e ricerca di somiglianze semantiche. Questo modello è stato addestrato con dati in oltre 100 lingue parlate.
Le dimensioni ridotte e l'attenzione al dispositivo consentono di eseguire il deployment in ambienti con risorse limitate, come cellulari, laptop o computer, democratizzando l'accesso a modelli di AI all'avanguardia e contribuendo a promuovere l'innovazione per tutti.
Per ulteriori dettagli tecnici, consulta il nostro documento: EmbeddingGemma: Powerful and Lightweight Text Representations.
Ingressi e uscite
Input:
- Stringa di testo, ad esempio una domanda, un prompt o un documento da incorporare
- Lunghezza massima del contesto di input di 2000 caratteri
Output:
- Rappresentazioni vettoriali numeriche dei dati di testo di input
- Dimensione dell'incorporamento dell'output di 768, con opzioni più piccole disponibili (512, 256 o 128) tramite Matryoshka Representation Learning (MRL). MRL consente agli utenti di troncare l'incorporamento dell'output di dimensioni 768 alla dimensione desiderata e poi di normalizzarlo nuovamente per una rappresentazione efficiente e accurata.
Citazione
@article{embedding_gemma_2025,
title={EmbeddingGemma: Powerful and Lightweight Text Representations},
publisher={Google DeepMind},
author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
year={2025},
url={https://arxiv.org/abs/2509.20354}
}
Dati modello
Set di dati di addestramento
Questo modello è stato addestrato su un set di dati di testo che include un'ampia varietà di fonti per un totale di circa 320 miliardi di token. Ecco i componenti chiave:
- Documenti web: una raccolta diversificata di testi web garantisce che il modello sia esposto a un'ampia gamma di stili linguistici, argomenti e vocabolario. Il set di dati di addestramento include contenuti in oltre 100 lingue.
- Codice e documenti tecnici: l'esposizione del modello a codice e documentazione tecnica lo aiuta a imparare la struttura e i pattern dei linguaggi di programmazione e dei contenuti scientifici specializzati, il che migliora la sua comprensione del codice e delle domande tecniche.
- Dati sintetici e specifici per l'attività: i dati di addestramento sintetici aiutano a insegnare al modello competenze specifiche. Sono inclusi dati curati per attività come il recupero di informazioni, la classificazione e l'analisi del sentiment, che contribuiscono a perfezionare le prestazioni per le applicazioni di incorporamento comuni.
La combinazione di queste diverse fonti di dati è fondamentale per addestrare un potente modello di incorporamento multilingue in grado di gestire un'ampia varietà di attività e formati di dati diversi.
Pre-elaborazione dei dati
Di seguito sono riportati i principali metodi di pulizia e filtraggio dei dati applicati ai dati di addestramento:
- Filtro del materiale pedopornografico: è stato applicato un rigoroso filtro del materiale pedopornografico in più fasi della procedura di preparazione dei dati per garantire l'esclusione di contenuti dannosi e illegali.
- Filtro dei dati sensibili: nell'ambito della creazione di modelli preaddestrati Gemma sicuri e affidabili, sono state utilizzate tecniche automatizzate per filtrare determinate informazioni personali e altri dati sensibili dai set di addestramento.
- Metodi aggiuntivi: filtraggio in base alla qualità e alla sicurezza dei contenuti in linea con le nostre norme.
Sviluppo di modelli
Hardware
EmbeddingGemma è stato addestrato utilizzando l'hardware Tensor Processing Unit (TPU) (TPUv5e) di ultima generazione. Per maggiori dettagli, consulta la scheda del modello Gemma 3.
Software
L'addestramento è stato eseguito utilizzando JAX e ML Pathways. Per ulteriori dettagli, consulta la scheda del modello Gemma 3.
Valutazione
Risultati benchmark
Il modello è stato valutato in base a una vasta raccolta di diversi set di dati e metriche per coprire diversi aspetti della comprensione del testo.
Checkpoint di precisione completa
| MTEB (multilingue, v2) | ||
|---|---|---|
| Dimensionalità | Media (attività) | Mean (TaskType) |
| 768d | 61.15 | 54,31 |
| 512d | 60,71 | 53,89 |
| 256d | 59,68 | 53,01 |
| 128d | 58,23 | 51,77 |
| MTEB (inglese, v2) | ||
|---|---|---|
| Dimensionalità | Media (attività) | Mean (TaskType) |
| 768d | 69,67 | 65.11 |
| 512d | 69.18 | 64,59 |
| 256d | 68,37 | 64,02 |
| 128d | 66,66 | 62,70 |
| MTEB (Code, v1) | ||
|---|---|---|
| Dimensionalità | Media (attività) | Mean (TaskType) |
| 768d | 68.76 | 68.76 |
| 512d | 68.48 | 68.48 |
| 256d | 66,74 | 66,74 |
| 128d | 62,96 | 62,96 |
Checkpoint QAT
| MTEB (multilingue, v2) | ||
|---|---|---|
| Quant config (dimensionality) | Media (attività) | Mean (TaskType) |
| Precisione mista* (768d) | 60,69 | 53,82 |
| Q8_0 (768d) | 60,93 | 53,95 |
| Q4_0 (768d) | 60,62 | 53,61 |
| MTEB (inglese, v2) | ||
|---|---|---|
| Quant config (dimensionality) | Media (attività) | Mean (TaskType) |
| Precisione mista* (768d) | 69,32 | 64,82 |
| Q8_0 (768d) | 69,49 | 64,84 |
| Q4_0 (768d) | 69,31 | 64,65 |
| MTEB (Code, v1) | ||
|---|---|---|
| Quant config (dimensionality) | Media (attività) | Mean (TaskType) |
| Precisione mista* (768d) | 68.03 | 68.03 |
| Q8_0 (768d) | 68.70 | 68.70 |
| Q4_0 (768d) | 67,99 | 67,99 |
* Precisione mista si riferisce alla quantizzazione per canale con int4 per i livelli di incorporamento, feedforward e proiezione e int8 per l'attenzione (e4_a8_f4_p4).
Istruzioni per i prompt
EmbeddingGemma può generare incorporamenti ottimizzati per vari casi d'uso, ad esempio recupero di documenti, risposta a domande e verifica dei fatti, o per tipi di input specifici, ovvero una query o un documento, utilizzando prompt anteposti alle stringhe di input.
I prompt delle query seguono il formato task: {task description} | query:, in cui la
descrizione dell'attività varia in base al caso d'uso, mentre la descrizione dell'attività predefinita è
search result. I prompt in stile documento seguono il formato
title: {title | "none"} | text:, dove il titolo è none (il
valore predefinito) o il titolo effettivo del documento. Tieni presente che fornire un titolo, se
disponibile, migliorerà il rendimento del modello per i prompt dei documenti, ma potrebbe richiedere
la formattazione manuale.
Utilizza i seguenti prompt in base al caso d'uso e al tipo di dati di input. Questi potrebbero essere già disponibili nella configurazione EmbeddingGemma nel framework di modellazione che preferisci.
Caso d'uso (enumerazione del tipo di attività) |
Descrizioni |
Prompt consigliato |
|---|---|---|
Recupero (query) |
Utilizzato per generare incorporamenti ottimizzati per la ricerca di documenti o il recupero di informazioni |
attività: risultato di ricerca | query: {content} |
Recupero (documento) |
title: {title | "none"} | text: {content} |
|
Question Answering |
task: question answering | query: {content} |
|
Verifica dei fatti |
task: fact checking | query: {content} |
|
Classificazione |
Utilizzato per generare incorporamenti ottimizzati per classificare i testi in base a etichette preimpostate |
task: classification | query: {content} |
Clustering |
Utilizzato per generare incorporamenti ottimizzati per raggruppare i testi in base alle loro somiglianze |
task: clustering | query: {content} |
Similarità semantica |
Utilizzato per generare incorporamenti ottimizzati per valutare la somiglianza del testo. Non è destinato ai casi d'uso di recupero. |
attività: similarità delle frasi | query: {content} |
Recupero del codice |
Utilizzato per recuperare un blocco di codice in base a una query in linguaggio naturale, ad esempio ordina un array o inverti un elenco collegato. Gli incorporamenti dei blocchi di codice vengono calcolati utilizzando retrieval_document. |
task: code retrieval | query: {content} |
Utilizzo e limitazioni
Questi modelli presentano alcune limitazioni di cui gli utenti devono essere a conoscenza.
Utilizzo previsto
I modelli di incorporamento aperti hanno un'ampia gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali utilizzi non è esaustivo. Lo scopo di questo elenco è fornire informazioni contestuali sui possibili casi d'uso che i creatori del modello hanno preso in considerazione nell'ambito dell'addestramento e dello sviluppo del modello.
- Somiglianza semantica: incorporamenti ottimizzati per valutare la somiglianza del testo, come i sistemi di suggerimenti e il rilevamento dei duplicati
- Classificazione: incorporamenti ottimizzati per classificare i testi in base a etichette preimpostate, come l'analisi del sentiment e il rilevamento dello spam
- Clustering: incorporamenti ottimizzati per raggruppare i testi in base alle loro somiglianze, ad esempio organizzazione dei documenti, ricerche di mercato e rilevamento di anomalie
Recupero
- Documento: incorporamenti ottimizzati per la ricerca di documenti, ad esempio l'indicizzazione di articoli, libri o pagine web per la ricerca
- Query: incorporamenti ottimizzati per le query di ricerca generali, ad esempio la ricerca personalizzata
- Query di codice: incorporamenti ottimizzati per il recupero di blocchi di codice in base a query in linguaggio naturale, ad esempio suggerimenti e ricerca di codice
Risposta alle domande: incorporamenti per le domande in un sistema di risposta alle domande, ottimizzati per trovare documenti che rispondono alla domanda, ad esempio una chatbox.
Verifica dei fatti: incorporamenti per le affermazioni che devono essere verificate, ottimizzati per il recupero di documenti che contengono prove a sostegno o in confutazione dell'affermazione, ad esempio sistemi di verifica dei fatti automatizzati.
Limitazioni
Dati di addestramento
- La qualità e la diversità dei dati di addestramento influiscono in modo significativo sulle funzionalità del modello. Bias o lacune nei dati di addestramento possono portare a limitazioni nelle risposte del modello.
- L'ambito del set di dati di addestramento determina le aree tematiche che il modello può gestire in modo efficace.
Ambiguità e sfumature del linguaggio
- Il linguaggio naturale è intrinsecamente complesso. I modelli potrebbero avere difficoltà a cogliere sfumature sottili, sarcasmo o linguaggio figurato.
Considerazioni etiche e rischi
Rischi identificati e mitigazioni:
- Perpetuazione dei bias: è consigliabile eseguire un monitoraggio continuo (utilizzando metriche di valutazione e revisione umana) e l'esplorazione di tecniche di riduzione dei bias durante l'addestramento, l'ottimizzazione e altri casi d'uso del modello.
- Uso improprio per scopi dannosi: limitazioni tecniche e formazione di sviluppatori e utenti finali possono contribuire a mitigare le applicazioni dannose degli incorporamenti. Vengono forniti risorse didattiche e meccanismi di segnalazione per consentire agli utenti di segnalare l'uso improprio. Gli usi vietati dei modelli Gemma sono descritti nelle Norme relative all'uso vietato di Gemma.
- Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per la rimozione di determinate informazioni personali e altri dati sensibili. Gli sviluppatori sono incoraggiati a rispettare le normative sulla privacy con tecniche che tutelano la privacy.
Vantaggi
Al momento del rilascio, questa famiglia di modelli fornisce implementazioni di modelli di incorporamento aperti ad alte prestazioni progettati da zero per lo sviluppo di AI responsabile rispetto a modelli di dimensioni simili. Utilizzando le metriche di valutazione del benchmark descritte in questo documento, questi modelli hanno mostrato prestazioni superiori rispetto ad altre alternative di modelli aperti di dimensioni comparabili.