Gemma 4 è stato rilasciato con input di testo, audio e immagini e una finestra contestuale lunga fino a 256.000 token. Scopri di più

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Panoramica del modello Gemma 4

Gemma è una famiglia di modelli di intelligenza artificiale generativa che puoi utilizzare in un'ampia gamma di attività di generazione, tra cui rispondere a domande, riassumere contenuti ed elaborare ragionamenti. I modelli Gemma vengono forniti con pesi aperti e consentono un utilizzo commerciale responsabile, permettendoti di ottimizzarli e implementarli nei tuoi progetti e applicazioni.

La famiglia di modelli Gemma 4 comprende quattro architetture distinte progettate per requisiti hardware specifici:

Modelli di dimensioni ridotte:modelli di parametri effettivi 2B e 4B creati per il deployment su dispositivi mobili, edge e browser (ad es. Pixel, Chrome).
Denso:un potente modello denso con 31 miliardi di parametri che colma il divario tra le prestazioni di livello server e l'esecuzione locale.
Mixture-of-Experts::un modello MoE 26B altamente efficiente progettato per un ragionamento avanzato e ad alto rendimento.
Unificato: un modello di codifica senza costi con 12 miliardi di parametri per attività multimodali, ha sostituito i codificatori di visione e audio con proiezioni lineari dirette dell'input.

Puoi scaricare i modelli Gemma 4 da Kaggle e Hugging Face. Per maggiori dettagli tecnici su Gemma 4, consulta la scheda del modello e il report tecnico. Sono disponibili per il download anche le versioni precedenti dei modelli Gemma core. Per ulteriori informazioni, vedi Modelli Gemma precedenti.

Scarica su Kaggle Scarica su Hugging Face

Funzionalità

Ragionamento:tutti i modelli della famiglia sono progettati per essere ragionatori altamente capaci, con modalità di pensiero configurabili.
Multimodalità estese: elabora testo, immagini con supporto di proporzioni e risoluzioni variabili (tutti i modelli), video e audio (funzionalità integrata nei modelli E2B, E4B e 12B).
Finestra contestuale più ampia:i modelli piccoli hanno una finestra contestuale di 128.000 token, mentre i modelli medi supportano 256.000 token.
Funzionalità di codifica e agenti migliorate: ottiene miglioramenti notevoli nei benchmark di codifica insieme al supporto integrato per la chiamata di funzioni, consentendo di creare agenti autonomi altamente capaci.
Supporto dei prompt di sistema nativi: Gemma 4 introduce il supporto integrato per il ruolo di sistema, consentendo conversazioni più strutturate e controllabili.
Previsione multi-token: tutti i modelli Gemma 4 (E2B, E4B, 12B, 31B e 26B A4B) includono un modello di bozza dedicato per la decodifica speculativa, che consente un'inferenza significativamente più rapida senza perdita di qualità.

Dimensioni dei parametri e quantizzazione

I modelli Gemma 4 sono disponibili in 5 dimensioni di parametri: E2B, E4B, 12B, 31B e 26B A4B. I modelli possono essere utilizzati con la precisione predefinita (16 bit) o con una precisione inferiore utilizzando la quantizzazione. Le diverse dimensioni e precisioni rappresentano un insieme di compromessi per la tua applicazione di AI. I modelli con parametri e conteggi di bit più elevati (maggiore precisione) sono generalmente più capaci, ma sono più costosi da eseguire in termini di cicli di elaborazione, costi di memoria e consumo energetico. I modelli con parametri e conteggi di bit inferiori (precisione inferiore) hanno meno funzionalità, ma potrebbero essere sufficienti per la tua attività di AI.

Requisiti di memoria per l'inferenza di Gemma 4

La seguente tabella mostra i requisiti approssimativi di memoria GPU o TPU per l'esecuzione dell'inferenza con ogni dimensione delle versioni del modello Gemma 4.

Parametri	BF16 (16 bit)	SFP8 (8 bit)	Q4_0 (4 bit)	Dispositivi mobili	Dispositivo mobile (solo testo)
Gemma 4 E2B	11,4 GB	5,7 GB	2,9 GB	1,1 GB	0,84 GB
Gemma 4 E4B	17,9 GB	8,9 GB	4,5 GB	2,5 GB	2,2 GB
Gemma 4 12B	26,7 GB	13,4 GB	6,7 GB	-	-
Gemma 4 26B A4B	57,7 GB	28,8 GB	14,4 GB	-	-
Gemma 4 31B	69,9 GB	34,9 GB	17,5 GB	-	-

Tabella 1. Memoria GPU o TPU approssimativa necessaria per caricare i modelli Gemma 4 in base al conteggio dei parametri, al livello di quantizzazione e al 20% di overhead per il caricamento di elementi aggiuntivi. Le versioni mobile utilizzano LiteRT-LM.

Considerazioni chiave per la pianificazione della memoria

Architettura efficiente (E2B ed E4B): la "E" sta per parametri "efficaci". I modelli più piccoli incorporano gli incorporamenti per livello (PLE) per massimizzare l'efficienza dei parametri nei deployment on-device. Anziché aggiungere più livelli al modello, PLE assegna a ogni livello del decodificatore un piccolo embedding per ogni token. Queste tabelle di incorporamento sono grandi, ma vengono utilizzate solo per ricerche rapide, motivo per cui la memoria totale necessaria per caricare i pesi statici è superiore a quanto suggerisce il conteggio effettivo dei parametri.
L'architettura MoE (26B A4B): il modello 26B è una combinazione di esperti. Sebbene attivi solo 4 miliardi di parametri per token durante la generazione, tutti i 26 miliardi di parametri devono essere caricati in memoria per mantenere velocità di routing e inferenza elevate. Per questo motivo, il requisito di memoria di base è molto più vicino a un modello denso da 26 miliardi di parametri che a un modello da 4 miliardi di parametri.
Solo pesi di base:le stime nella tabella precedente tengono conto solo della memoria necessaria per caricare i pesi del modello statico. Non includono la VRAM aggiuntiva necessaria per supportare il software o la finestra contestuale.
Finestra contestuale (cache KV): il consumo di memoria aumenterà in modo dinamico in base al numero totale di token nel prompt e nella risposta generata. Le finestre contestuali più grandi richiedono molta più VRAM rispetto ai pesi del modello di base.
Overhead del fine-tuning:i requisiti di memoria per il fine-tuning dei modelli Gemma sono notevolmente superiori rispetto all'inferenza standard. L'impronta esatta dipenderà in gran parte dal framework di sviluppo, dalle dimensioni del batch e dal fatto che utilizzi l'ottimizzazione a precisione completa o un metodo Parameter-Efficient Fine-Tuning (PEFT) come LoRA (Low-Rank Adaptation).

Addestramento consapevole della quantizzazione (QAT)

Per i deployment che richiedono la massima efficienza con un compromesso minimo della qualità, Gemma offre modelli di addestramento consapevole della quantizzazione (QAT) ufficiali.

A differenza della quantizzazione post-addestramento (PTQ) standard, che comprime un modello completamente addestrato e può comportare un peggioramento della qualità, la quantizzazione consapevole dell'addestramento (QAT) integra la simulazione della quantizzazione nel processo di addestramento stesso. Ciò consente al modello di imparare a compensare la perdita di precisione, ottenendo modelli più piccoli che funzionano in modo quasi identico alle loro baseline ad alta precisione.

Tabella di routing rapida

Motore di deployment di destinazione	Suffisso di download	Caso d'uso principale
llama.cpp / LM Studio (locale)	`{model-name}-qat-q4_0-gguf`	Deployment locale senza configurazione su CPU, Apple Silicon o GPU consumer.
vLLM / SGLang	SERVER: `{model-name}-qat-w4a16-ct` CELLULARE: `{model-name}-qat-mobile-ct`	Inferenza a throughput elevato che utilizza pesi a 4 bit con attivazioni a 16 bit.
Decodifica speculativa	MODELLO: `{model-name}-qat-q4_0-unquantized` BOZZA: `{model-name}-qat-q4_0-unquantized-assistant`	Esecuzione di un modello principale insieme al modello di bozza MTP corrispondente per accelerare drasticamente la generazione di token. Il modello deve essere quantizzato.
Altri formati	`{model-name}-qat-q4_0-unquantized`	Pesi non quantizzati per la conversione in altri formati (ad es. MLX)
Deployment mobile (Transformers)	`{model-name}-qat-mobile-transformers`	Pesi degli archi ottimizzati per i casi d'uso mobile. Servono da riferimento per altri formati.

Raccolte QAT ufficiali su Hugging Face

collections/google/gemma-4-qat-q4-0
- Checkpoint QAT non quantizzati (-unquantized / -assistant): pesi a mezza precisione estratti direttamente dalla pipeline QAT. Questi sono ideali per la compilazione, la ricerca o l'esecuzione personalizzate a valle della decodifica speculativa utilizzando i modelli di bozza dell'assistente. Disponibile per Gemma 4 E2B, E4B, 12B, 26B A4B e 31B.
- GGUF (-gguf): checkpoint disponibili per la compatibilità immediata nell'ecosistema LLM locale. Disponibile per Gemma 4 E2B, E4B, 12B, 26B A4B e 31B.
- Tensori compressi (-w4a16-ct): serializzati in modo nativo nello standard compressed-tensors per un serving cloud ottimizzato e ad alta concorrenza. Disponibile per Gemma 4 E2B, E4B, 12B e 31B.
collections/google/gemma-4-qat-mobile
- Ottimizzato per il mobile (-mobile-transformers / -mobile-ct): creato su uno schema wNa8o8 personalizzato progettato specificamente per i limiti dell'hardware mobile. Utilizza livelli di decodifica a 2 bit mirati, cache KV ottimizzate e attivazioni statiche per massimizzare il risparmio di RAM sul dispositivo senza sovraccaricare i processori edge. Disponibile per Gemma 4 E2B ed E4B.

È possibile accedere a tutti i checkpoint QAT ufficiali di Gemma 4 anche direttamente da Kaggle.

Modelli Gemma precedenti

Puoi lavorare con le generazioni precedenti di modelli Gemma, disponibili anche su Kaggle e Hugging Face. Per ulteriori dettagli tecnici sui modelli Gemma precedenti, consulta le seguenti pagine delle schede dei modelli:

È tutto pronto per iniziare a creare? Inizia con i modelli Gemma.