Panoramica del modello Gemma 4

Gemma è una famiglia di modelli di intelligenza artificiale generativa che puoi utilizzare in un'ampia gamma di attività di generazione, tra cui rispondere a domande, riassumere contenuti ed elaborare ragionamenti. I modelli Gemma vengono forniti con pesi aperti e consentono un utilizzo commerciale responsabile, permettendoti di ottimizzarli e implementarli nei tuoi progetti e applicazioni.

La famiglia di modelli Gemma 4 comprende tre architetture distinte progettate per requisiti hardware specifici:

  • Modelli di dimensioni ridotte:modelli di parametri effettivi 2B e 4B creati per il deployment su dispositivi mobili, edge e browser (ad es. Pixel, Chrome).
  • Denso:un potente modello denso con 31 miliardi di parametri che colma il divario tra le prestazioni di livello server e l'esecuzione locale.
  • Mixture-of-Experts::un modello MoE da 26 miliardi di parametri altamente efficiente progettato per un'elaborazione ad alto rendimento e un ragionamento avanzato.

Puoi scaricare i modelli Gemma 4 da Kaggle e Hugging Face. Per ulteriori dettagli tecnici su Gemma 4, consulta la scheda del modello. Sono disponibili per il download anche le versioni precedenti dei modelli core Gemma. Per ulteriori informazioni, vedi Modelli Gemma precedenti.

Scarica su Kaggle Scarica su Hugging Face

Funzionalità

  • Ragionamento:tutti i modelli della famiglia sono progettati per essere ottimi ragionatori, con modalità di pensiero configurabili.
  • Multimodalità estese:elabora testo, immagini con supporto di proporzioni e risoluzioni variabili (tutti i modelli), video e audio (funzionalità integrata nei modelli E2B e E4B).
  • Finestra contestuale più ampia:i modelli piccoli hanno una finestra contestuale di 128.000 token, mentre i modelli medi supportano 256.000 token.
  • Funzionalità di codifica e agenti migliorate: ottiene miglioramenti notevoli nei benchmark di codifica, oltre al supporto integrato per la chiamata di funzioni, che consente di creare agenti autonomi altamente capaci.
  • Supporto del prompt di sistema nativo: Gemma 4 introduce il supporto integrato per il ruolo di sistema, consentendo conversazioni più strutturate e controllabili.

Dimensioni dei parametri e quantizzazione

I modelli Gemma 4 sono disponibili in quattro dimensioni di parametri: E2B, E4B, 31B e 26B A4B. I modelli possono essere utilizzati con la precisione predefinita (16 bit) o con una precisione inferiore utilizzando la quantizzazione. Le diverse dimensioni e precisioni rappresentano un insieme di compromessi per la tua applicazione AI. I modelli con parametri e conteggi di bit più elevati (maggiore precisione) sono generalmente più capaci, ma sono più costosi da eseguire in termini di cicli di elaborazione, costi di memoria e consumo energetico. I modelli con parametri e conteggi di bit inferiori (precisione inferiore) hanno meno funzionalità, ma potrebbero essere sufficienti per la tua attività AI.

Requisiti di memoria per l'inferenza di Gemma 4

La seguente tabella mostra i requisiti approssimativi di memoria GPU o TPU per l'esecuzione dell'inferenza con ogni dimensione delle versioni del modello Gemma 4.

Parametri BF16 (16 bit) SFP8 (8 bit) Q4_0 (4 bit)
Gemma 4 E2B 9,6 GB 4,6 GB 3,2 GB
Gemma 4 E4B 15 GB 7,5 GB 5 GB
Gemma 4 31B 58,3 GB 30,4 GB 17,4 GB
Gemma 4 26B A4B 48 GB 25 GB 15,6 GB

Tabella 1. Memoria GPU o TPU approssimativa necessaria per caricare i modelli Gemma 4 in base al numero di parametri e al livello di quantizzazione.

Considerazioni principali per la pianificazione della memoria

  • Architettura efficiente (E2B ed E4B): la "E" sta per parametri "efficaci". I modelli più piccoli incorporano gli incorporamenti per livello (PLE) per massimizzare l'efficienza dei parametri nei deployment on-device. Anziché aggiungere più livelli al modello, PLE assegna a ogni livello del decodificatore un piccolo embedding per ogni token. Queste tabelle di incorporamento sono grandi, ma vengono utilizzate solo per ricerche rapide, motivo per cui la memoria totale necessaria per caricare i pesi statici è superiore a quanto suggerisce il conteggio effettivo dei parametri.
  • L'architettura MoE (26B A4B): il modello 26B è una combinazione di esperti. Sebbene attivi solo 4 miliardi di parametri per token durante la generazione, tutti i 26 miliardi di parametri devono essere caricati in memoria per mantenere velocità di routing e inferenza elevate. Per questo motivo, il requisito di memoria di base è molto più vicino a un modello denso da 26 miliardi di parametri che a un modello da 4 miliardi di parametri.
  • Solo pesi di base:le stime nella tabella precedente tengono conto solo della memoria necessaria per caricare i pesi del modello statico. Non includono la VRAM aggiuntiva necessaria per supportare il software o la finestra contestuale.
  • Finestra contestuale (cache KV): il consumo di memoria aumenterà in modo dinamico in base al numero totale di token nel prompt e nella risposta generata. Le finestre contestuali più grandi richiedono molta più VRAM rispetto ai pesi del modello di base.
  • Overhead del fine-tuning:i requisiti di memoria per il fine-tuning dei modelli Gemma sono notevolmente superiori rispetto all'inferenza standard. L'impronta esatta dipenderà in gran parte dal framework di sviluppo, dalle dimensioni del batch e dal fatto che utilizzi l'ottimizzazione a precisione completa o un metodo Parameter-Efficient Fine-Tuning (PEFT) come LoRA (Low-Rank Adaptation).

Modelli Gemma precedenti

Puoi lavorare con le generazioni precedenti di modelli Gemma, disponibili anche su Kaggle e Hugging Face. Per ulteriori dettagli tecnici sui modelli Gemma precedenti, consulta le seguenti pagine delle schede dei modelli:

È tutto pronto per iniziare a creare? Inizia a utilizzare i modelli Gemma.