Gemma è una famiglia di modelli di intelligenza artificiale generativa che puoi utilizzare in un'ampia gamma di attività di generazione, tra cui rispondere a domande, riassumere contenuti ed elaborare ragionamenti. I modelli Gemma sono forniti con ponderazioni open e consentono un utilizzo commerciale responsabile, permettendoti di ottimizzarli ed eseguirne il deployment nei tuoi progetti e nelle tue applicazioni.
La famiglia di modelli Gemma 4 comprende tre architetture distinte, progettate per requisiti hardware specifici:
- Dimensioni ridotte: modelli con parametri effettivi da 2B e 4B creati per il deployment su dispositivi mobili, edge e browser (ad es. Pixel, Chrome).
- Densi: un modello denso con 31B parametri che colma il divario tra le prestazioni di livello server e l'esecuzione locale.
- Mixture-of-Experts: un modello MoE da 26B altamente efficiente progettato per un'elevata velocità effettiva e un ragionamento avanzato.
Puoi scaricare i modelli Gemma 4 da Kaggle e Hugging Face. Per ulteriori dettagli tecnici su Gemma 4, consulta la scheda del modello. Sono disponibili per il download anche le versioni precedenti dei modelli core di Gemma. Per ulteriori informazioni, consulta Modelli Gemma precedenti.
Scarica da Kaggle Scarica da Hugging Face
Funzionalità
- Ragionamento: tutti i modelli della famiglia sono progettati come ragionatori altamente capaci, con modalità di ragionamento configurabili.
- Multimodalità estesa: elabora testo, immagini con supporto per proporzioni e risoluzioni variabili (tutti i modelli), video, e audio (disponibile in modo nativo sui modelli E2B e E4B).
- Finestra contestuale aumentata: i modelli piccoli hanno una finestra contestuale di 128.000 token, mentre i modelli medi supportano 256.000 token.
- Funzionalità di codifica e agenti migliorate: ottiene miglioramenti notevoli nei benchmark di codifica, oltre al supporto integrato per la chiamata di funzioni , che potenzia agenti autonomi altamente capaci.
- Supporto nativo per i prompt di sistema: Gemma 4 introduce il supporto integrato per il ruolo di sistema, consentendo conversazioni più strutturate e controllabili.
- Previsione multi-token: tutti i modelli Gemma 4 (E2B, E4B, 31B e 26B A4B) includono un modello di bozza dedicato per la decodifica speculativa, che consente un'inferenza notevolmente più rapida senza perdita di qualità.
Dimensioni dei parametri e quantizzazione
I modelli Gemma 4 sono disponibili in 4 dimensioni di parametri: E2B, E4B, 31B e 26B A4B. I modelli possono essere utilizzati con la precisione predefinita (16 bit) o con una precisione inferiore utilizzando la quantizzazione. Le diverse dimensioni e precisioni rappresentano un insieme di compromessi per la tua applicazione di AI. I modelli con un numero maggiore di parametri e bit (precisione maggiore) sono in genere più capaci, ma sono più costosi da eseguire in termini di cicli di elaborazione, costo della memoria e consumo energetico. I modelli con un numero inferiore di parametri e bit (precisione inferiore) hanno meno funzionalità, ma potrebbero essere sufficienti per la tua attività di AI.
Requisiti di memoria per l'inferenza di Gemma 4
La seguente tabella illustra i requisiti di memoria GPU o TPU approssimativi per l'esecuzione dell'inferenza con ogni dimensione delle versioni del modello Gemma 4.
| Parametri | BF16 (16 bit) | SFP8 (8 bit) | Q4_0 (4 bit) |
|---|---|---|---|
| Gemma 4 E2B | 9,6 GB | 4,6 GB | 3,2 GB |
| Gemma 4 E4B | 15 GB | 7,5 GB | 5 GB |
| Gemma 4 31B | 58,3 GB | 30,4 GB | 17,4 GB |
| Gemma 4 26B A4B | 48 GB | 25 GB | 15,6 GB |
Tabella 1. Memoria GPU o TPU approssimativa richiesta per caricare i modelli Gemma 4 in base al conteggio dei parametri e al livello di quantizzazione.
Considerazioni principali per la pianificazione della memoria
- Architettura efficiente (E2B ed E4B): la "E" sta per parametri "effettivi". I modelli più piccoli incorporano gli incorporamenti per livello (PLE) per massimizzare l'efficienza dei parametri nei deployment on-device. Anziché aggiungere più livelli al modello, PLE assegna a ogni livello del decodificatore un piccolo incorporamento per ogni token. Queste tabelle di incorporamento sono di grandi dimensioni, ma vengono utilizzate solo per ricerche rapide, motivo per cui la memoria totale richiesta per caricare le ponderazioni statiche è superiore a quanto suggerito dal conteggio dei parametri effettivi.
- L'architettura MoE (26B A4B): il modello 26B è un modello Mixture of Experts. Sebbene attivi solo 4 miliardi di parametri per token durante la generazione, tutti i 26 miliardi di parametri devono essere caricati in memoria per mantenere velocità di routing e inferenza elevate. Questo è il motivo per cui il requisito di memoria di base è molto più vicino a un modello denso da 26B rispetto a un modello da 4B.
- Solo ponderazioni di base: le stime nella tabella precedente tengono conto solo della memoria richiesta per caricare le ponderazioni del modello statico. Non includono la VRAM aggiuntiva necessaria per il software di supporto o la finestra contestuale.
- Finestra contestuale (cache KV): il consumo di memoria aumenterà dinamicamente in base al numero totale di token nel prompt e nella risposta generata. Le finestre contestuali più grandi richiedono una VRAM notevolmente maggiore rispetto alle ponderazioni del modello di base.
- Overhead di ottimizzazione: i requisiti di memoria per l'ottimizzazione dei modelli Gemma sono drasticamente superiori rispetto all'inferenza standard. L'ingombro esatto dipenderà in larga misura dal framework di sviluppo, dalla dimensione del batch e dal fatto che tu stia utilizzando l'ottimizzazione a precisione completa o un metodo di parameter-efficient fine-tuning (PEFT) come Low-Rank Adaptation (LoRA).
Modelli Gemma precedenti
Puoi utilizzare le generazioni precedenti dei modelli Gemma, disponibili anche su Kaggle e Hugging Face. Per ulteriori dettagli tecnici sui modelli Gemma precedenti, consulta le seguenti pagine della scheda del modello:
- Scheda del modello Gemma 3 Model Card
- Scheda del modello Gemma 2 Model Card
- Scheda del modello Gemma 1
È tutto pronto per iniziare a creare? Inizia a utilizzare i modelli Gemma.