Panoramica del modello Gemma 4

Gemma è una famiglia di modelli di intelligenza artificiale generativa che puoi utilizzare in un'ampia varietà di attività di generazione, tra cui rispondere a domande, riassumere contenuti ed elaborare ragionamenti. I modelli Gemma sono forniti con ponderazioni open e consentono un utilizzo commerciale responsabile, permettendoti di ottimizzarli ed eseguirne il deployment nei tuoi progetti e nelle tue applicazioni.

La famiglia di modelli Gemma 4 comprende quattro architetture distinte, progettate per requisiti hardware specifici:

  • Dimensioni ridotte: modelli con parametri effettivi da 2B e 4B creati per il deployment su dispositivi mobili, edge e browser (ad es. Pixel, Chrome).
  • Densi: un potente modello denso con 31B parametri che colma il divario tra le prestazioni di livello server e l'esecuzione locale.
  • Mixture-of-Experts: un modello MoE da 26B altamente efficiente progettato per un throughput elevato e un ragionamento avanzato.
  • Unificati: un modello senza codificatore con parametri da 12B per attività multimodali, che ha sostituito i codificatori di visione e audio con proiezioni lineari dirette dell'input.

Puoi scaricare i modelli Gemma 4 da Kaggle e Hugging Face. Per ulteriori dettagli tecnici su Gemma 4, consulta la scheda del modello. Sono disponibili per il download anche le versioni precedenti dei modelli core di Gemma. Per ulteriori informazioni, consulta Modelli Gemma precedenti.

Scarica da Kaggle Scarica da Hugging Face

Funzionalità

  • Ragionamento: tutti i modelli della famiglia sono progettati come ragionatori altamente capaci, con modalità di pensiero configurabili.
  • Multimodalità estese: elabora testo, immagini con supporto per proporzioni e risoluzioni variabili (tutti i modelli), video e audio (disponibili in modo nativo sui modelli E2B, E4B e 12B).
  • Finestra contestuale aumentata: i modelli piccoli hanno una finestra contestuale di 128.000 token, mentre i modelli medi supportano 256.000 token.
  • Funzionalità di codifica e agenti migliorate: ottiene miglioramenti notevoli nei benchmark di codifica, oltre al supporto integrato per la chiamata di funzioni, che potenzia gli agenti autonomi altamente capaci.
  • Supporto nativo per i prompt di sistema: Gemma 4 introduce il supporto integrato per il ruolo di sistema, consentendo conversazioni più strutturate e controllabili.
  • Previsione multi-token: tutti i modelli Gemma 4 (E2B, E4B, 12B, 31B e 26B A4B) includono un modello di bozza dedicato per la decodifica speculativa, che consente un'inferenza notevolmente più rapida senza perdita di qualità.

Dimensioni dei parametri e quantizzazione

I modelli Gemma 4 sono disponibili in 5 dimensioni di parametri: E2B, E4B, 12B, 31B e 26B A4B. I modelli possono essere utilizzati con la precisione predefinita (16 bit) o con una precisione inferiore utilizzando la quantizzazione. Le diverse dimensioni e precisioni rappresentano un insieme di compromessi per la tua applicazione di AI. I modelli con un numero di parametri e bit più elevato (precisione maggiore) sono in genere più capaci, ma sono più costosi da eseguire in termini di cicli di elaborazione, costo della memoria e consumo energetico. I modelli con un numero di parametri e bit inferiore (precisione inferiore) hanno meno funzionalità, ma potrebbero essere sufficienti per la tua attività AI.

Requisiti di memoria per l'inferenza di Gemma 4

La seguente tabella illustra i requisiti di memoria GPU o TPU approssimativi per l'esecuzione dell'inferenza con ogni dimensione delle versioni del modello Gemma 4.

Parametri BF16 (16 bit) SFP8 (8 bit) Q4_0 (4 bit) Dispositivi mobili Dispositivi mobili (solo testo)
Gemma 4 E2B 11,4 GB 5,7 GB 2,9 GB 1,1 GB 0,84 GB
Gemma 4 E4B 17,9 GB 8,9 GB 4,5 GB 2,5 GB 2,2 GB
Gemma 4 12B 26,7 GB 13,4 GB 6,7 GB - -
Gemma 4 26B A4B 57,7 GB 28,8 GB 14,4 GB - -
Gemma 4 31B 69,9 GB 34,9 GB 17,5 GB - -

Tabella 1. Memoria GPU o TPU approssimativa richiesta per caricare i modelli Gemma 4 in base al numero di parametri, al livello di quantizzazione e al 20% di overhead per il caricamento di elementi aggiuntivi. Le versioni per dispositivi mobili utilizzano LiteRT-LM.

Considerazioni principali per la pianificazione della memoria

  • Architettura efficiente (E2B ed E4B): la "E" sta per parametri "effettivi". I modelli più piccoli incorporano incorporamenti per livello (PLE) per massimizzare l'efficienza dei parametri nei deployment on-device. Anziché aggiungere altri livelli al modello, PLE assegna a ogni livello del decodificatore un piccolo incorporamento per ogni token. Queste tabelle di incorporamento sono di grandi dimensioni, ma vengono utilizzate solo per ricerche rapide, motivo per cui la memoria totale richiesta per caricare le ponderazioni statiche è superiore a quanto suggerito dal numero di parametri effettivi.
  • Architettura MoE (26B A4B): il modello 26B è un modello Mixture of Experts. Sebbene durante la generazione attivi solo 4 miliardi di parametri per token, tutti i 26 miliardi di parametri devono essere caricati in memoria per mantenere velocità di routing e inferenza elevate. Per questo motivo, il requisito di memoria di base è molto più vicino a un modello denso da 26B che a un modello da 4B.
  • Solo ponderazioni di base: le stime nella tabella precedente tengono conto solo della memoria richiesta per caricare le ponderazioni del modello statico. Non includono la VRAM aggiuntiva necessaria per il software di supporto o la finestra contestuale.
  • Finestra contestuale (cache KV): il consumo di memoria aumenterà in modo dinamico in base al numero totale di token nel prompt e nella risposta generata. Le finestre contestuali più grandi richiedono una VRAM notevolmente maggiore rispetto alle ponderazioni del modello di base.
  • Overhead di ottimizzazione: i requisiti di memoria per l'ottimizzazione dei modelli Gemma sono notevolmente superiori rispetto all'inferenza standard. L'ingombro esatto dipenderà in larga misura dal framework di sviluppo, dalla dimensione del batch e dal fatto che tu stia utilizzando l'ottimizzazione a precisione completa o un metodo di parameter-efficient fine-tuning (PEFT) come Low-Rank Adaptation (LoRA).

Addestramento con riconoscimento della quantizzazione (QAT)

Per i deployment che richiedono la massima efficienza con un compromesso minimo della qualità, Gemma offre modelli ufficiali di addestramento con riconoscimento della quantizzazione (QAT).

A differenza della quantizzazione post-addestramento (PTQ) standard, che comprime un modello completamente addestrato e può comportare un peggioramento della qualità, QAT integra la simulazione della quantizzazione nel processo di addestramento stesso. In questo modo, il modello può imparare a compensare la perdita di precisione, ottenendo modelli più piccoli che hanno prestazioni quasi identiche alle baseline ad alta precisione.

Tabella di routing rapida

Motore di deployment di destinazione Suffisso di download Caso d'uso principale
llama.cpp / LM Studio (locale) {model-name}-qat-q4_0-gguf Deployment locale senza configurazione su CPU, Apple Silicon o GPU consumer.
vLLM / SGLang SERVER: {model-name}-qat-w4a16-ct
MOBILE: {model-name}-qat-mobile-ct
Inferenza a throughput elevato che utilizza ponderazioni a 4 bit con attivazioni a 16 bit.
Decodifica speculativa MODELLO: {model-name}-qat-q4_0-unquantized
DRAFTER: {model-name}-qat-q4_0-unquantized-assistant
Esecuzione di un modello principale insieme al modello di bozza MTP corrispondente per accelerare drasticamente la generazione di token. Il modello deve essere quantizzato.
Altri formati {model-name}-qat-q4_0-unquantized Ponderazioni non quantizzate per la conversione in altri formati (ad es. MLX)
Deployment per dispositivi mobili (Transformers) {model-name}-qat-mobile-transformers Ponderazioni edge ottimizzate per i casi d'uso su dispositivi mobili. Servono come riferimento per altri formati.

Raccolte QAT ufficiali su Hugging Face

  • collections/google/gemma-4-qat-q4-0
    • Checkpoint QAT non quantizzati (-unquantized / -assistant): ponderazioni a mezza precisione estratte direttamente dalla pipeline QAT. Sono ideali per la compilazione personalizzata a valle, la ricerca o l'esecuzione della decodifica speculativa utilizzando i modelli di bozza dell'assistente. Disponibile per Gemma 4 E2B, E4B, 12B, 26B A4B e 31B.
    • GGUF (-gguf): checkpoint disponibili per la compatibilità immediata nell'ecosistema LLM locale. Disponibile per Gemma 4 E2B, E4B, 12B, 26B A4B e 31B.
    • Tensori compressi (-w4a16-ct): serializzati in modo nativo nello standard compressed-tensors per un serving cloud ottimizzato e ad alta concorrenza. Disponibile per Gemma 4 E2B, E4B, 12B e 31B.
  • collections/google/gemma-4-qat-mobile
    • Ottimizzati per dispositivi mobili (-mobile-transformers / -mobile-ct): basati su uno schema wNa8o8 personalizzato progettato appositamente per i limiti hardware dei dispositivi mobili. Utilizza livelli di decodifica a 2 bit mirati, cache KV ottimizzate e attivazioni statiche per massimizzare il risparmio di RAM on-device senza sovraccaricare i processori edge. Disponibile per Gemma 4 E2B ed E4B.

Tutti i checkpoint QAT ufficiali di Gemma 4 sono accessibili anche direttamente da Kaggle.

Modelli Gemma precedenti

Puoi utilizzare le generazioni precedenti dei modelli Gemma, disponibili anche su Kaggle e Hugging Face. Per ulteriori dettagli tecnici sui modelli Gemma precedenti, consulta le seguenti pagine delle schede dei modelli:

È tutto pronto per iniziare a creare? Inizia a utilizzare i modelli Gemma.