Ottimizzazione distribuita con Gemma utilizzando Keras

Gemma è una famiglia di modelli aperti leggeri e all'avanguardia basati sulla ricerca e la tecnologia utilizzate per creare i modelli Gemini di Google. Gemma può essere ulteriormente ottimizzata per soddisfare esigenze specifiche. Tuttavia, i modelli linguistici di grandi dimensioni, come Gemma, possono avere dimensioni molto grandi e alcuni potrebbero non essere adatti a un acceleratore di canto per l'ottimizzazione. In questo caso, esistono due approcci generali per perfezionarli:

  1. L'ottimizzazione efficiente dei parametri (PEFT) mira a ridurre le dimensioni effettive del modello sacrificando una certa fedeltà. LoRA rientra in questa categoria e il tutorial Ottimizza i modelli Gemma in Keras utilizzando LoRA mostra come perfezionare il modello Gemma 2B gemma_2b_en con LoRA utilizzando KerasNLP su una singola GPU.
  2. Ottimizzazione completa dei parametri con il parallelismo del modello. Il parallelismo del modello distribuisce le ponderazioni di un singolo modello su più dispositivi e consente la scalabilità orizzontale. Per ulteriori informazioni sull'addestramento distribuito, consulta questa guida di Keras.

Questo tutorial illustra l'utilizzo di Keras con un backend JAX per ottimizzare il modello Gemma 7B con LoRA e l'addestramento distribuito basato sul parallelismo dei modelli sulla Tensor Processing Unit (TPU) di Google. Tieni presente che LoRA può essere disattivato in questo tutorial per un'ottimizzazione completa dei parametri più lenta ma più accurata.

Utilizzo di acceleratori

Tecnicamente, puoi utilizzare TPU o GPU per questo tutorial.

Note sugli ambienti TPU

Google ha tre prodotti che forniscono TPU:

  • Colab fornisce TPU v2 senza costi, un valore sufficiente per questo tutorial.
  • Kaggle offre TPU v3 senza costi e funziona anche per questo tutorial.
  • Cloud TPU offre TPU v3 e generazioni più recenti. Un modo per configurarlo è:
    1. Crea una nuova VM TPU
    2. Configura l'inoltro alla porta SSH per la porta del server Jupyter che vuoi utilizzare
    3. Installa Jupyter e avvialo sulla VM TPU, quindi connettiti a Colab tramite "Connetti a un runtime locale"

Note sulla configurazione con più GPU

Anche se questo tutorial è incentrato sul caso d'uso di TPU, puoi adattarlo facilmente alle tue esigenze se disponi di una macchina multi-GPU.

Se preferisci lavorare con Colab, puoi anche eseguire il provisioning di una VM con più GPU per Colab direttamente tramite "Connetti a una VM GCE personalizzata" nel menu Colab Connect.

Qui ci concentreremo sull'utilizzo della TPU senza costi di Kaggle.

Prima di iniziare

Credenziali di Kaggle

I modelli Gemma sono ospitati da Kaggle. Per usare Gemma, richiedi l'accesso su Kaggle:

Quindi, per utilizzare l'API Kaggle, crea un token API:

  • Apri le impostazioni di Kaggle
  • Seleziona "Create New Token" (Crea nuovo token).
  • È stato scaricato un file kaggle.json. Contiene le tue credenziali di Kaggle

Esegui la cella seguente e inserisci le tue credenziali di Kaggle quando richiesto.

# If you are using Kaggle, you don't need to login again.
!pip install ipywidgets
import kagglehub

Un modo alternativo è impostare KAGGLE_USERNAME e KAGGLE_KEY nel tuo ambiente se kagglehub.login() non funziona.


Installare Keras e KerasNLP con il modello Gemma.

pip install -q -U keras-nlp
# Work around an import error with tensorflow-hub. The library is not used.
pip install -q -U tensorflow-hub
# Install tensorflow-cpu so tensorflow does not attempt to access the TPU.
pip install -q -U tensorflow-cpu tensorflow-text
# Install keras 3 last. See for details.
pip install -q -U keras

Configurazione del backend JAX di Keras

Importa JAX ed esegui un controllo di integrità sulla TPU. Kaggle offre dispositivi TPUv3-8 che hanno 8 core TPU con 16 GB di memoria ciascuno.

import jax

[TpuDevice(id=0, process_index=0, coords=(0,0,0), core_on_chip=0),
 TpuDevice(id=1, process_index=0, coords=(0,0,0), core_on_chip=1),
 TpuDevice(id=2, process_index=0, coords=(1,0,0), core_on_chip=0),
 TpuDevice(id=3, process_index=0, coords=(1,0,0), core_on_chip=1),
 TpuDevice(id=4, process_index=0, coords=(0,1,0), core_on_chip=0),
 TpuDevice(id=5, process_index=0, coords=(0,1,0), core_on_chip=1),
 TpuDevice(id=6, process_index=0, coords=(1,1,0), core_on_chip=0),
 TpuDevice(id=7, process_index=0, coords=(1,1,0), core_on_chip=1)]
import os

# The Keras 3 distribution API is only implemented for the JAX backend for now
os.environ["KERAS_BACKEND"] = "jax"
# Pre-allocate 90% of TPU memory to minimize memory fragmentation and allocation
# overhead
os.environ["XLA_PYTHON_CLIENT_MEM_FRACTION"] = "0.9"

Carica modello

import keras
import keras_nlp

Note sull'addestramento con precisione mista sulle GPU NVIDIA

Durante l'addestramento con GPU NVIDIA, è possibile utilizzare la precisione mista (keras.mixed_precision.set_global_policy('mixed_bfloat16')) per velocizzare l'addestramento con un effetto minimo sulla qualità dell'addestramento. Nella maggior parte dei casi, ti consigliamo di attivare la precisione mista per risparmiare memoria e tempo. Tuttavia, tieni presente che con batch di piccole dimensioni, l'utilizzo della memoria può aumentare di 1,5 volte (i pesi verranno caricati due volte, con una precisione dimezzata e la precisione massima).

Per l'inferenza, la mezza precisione (keras.config.set_floatx("bfloat16")) è valida e consente di risparmiare memoria, mentre la precisione mista non è applicabile.

# Uncomment the line below if you want to enable mixed precision training on GPUs
# keras.mixed_precision.set_global_policy('mixed_bfloat16')

Per caricare il modello con pesi e tensori distribuiti tra le TPU, devi prima creare un nuovo DeviceMesh. DeviceMesh rappresenta una raccolta di dispositivi hardware configurati per il calcolo distribuito ed è stato introdotto in Keras 3 come parte dell'API di distribuzione unificata.

L'API di distribuzione consente il parallelismo dei dati e dei modelli, consentendo una scalabilità efficiente dei modelli di deep learning su più acceleratori e host. Sfrutta il framework sottostante (ad es. JAX) per distribuire il programma e i tensori in base alle direttive di sharding attraverso una procedura chiamata espansione a programma singolo, più dati (SPMD). Scopri di più nella nuova guida alle API di distribuzione di Keras 3.

# Create a device mesh with (1, 8) shape so that the weights are sharded across
# all 8 TPUs.
device_mesh = keras.distribution.DeviceMesh(
    (1, 8),
    ["batch", "model"],

LayoutMap dell'API di distribuzione specifica in che modo i pesi e i tensori devono essere sottoposti a sharding o replicati utilizzando le chiavi stringa, ad esempio token_embedding/embeddings di seguito, che vengono trattate come un'espressione regolare per la corrispondenza dei percorsi dei tensori. Lo sharding dei tensori corrispondenti viene eseguito con le dimensioni del modello (8 TPU); le altre saranno completamente replicate.

model_dim = "model"

layout_map = keras.distribution.LayoutMap(device_mesh)

# Weights that match 'token_embedding/embeddings' will be sharded on 8 TPUs
layout_map["token_embedding/embeddings"] = (model_dim, None)
# Regex to match against the query, key and value matrices in the decoder
# attention layers
layout_map["decoder_block.*attention.*(query|key|value).*kernel"] = (
    model_dim, None, None)

layout_map["decoder_block.*attention_output.*kernel"] = (
    model_dim, None, None)
layout_map["decoder_block.*ffw_gating.*kernel"] = (None, model_dim)
layout_map["decoder_block.*ffw_linear.*kernel"] = (model_dim, None)

ModelParallel ti consente di eseguire lo sharding dei pesi del modello o dei tensori di attivazione in tutti gli sviluppatori di DeviceMesh. In questo caso, alcuni pesi del modello Gemma 7B vengono suddivisi con sharding su 8 chip TPU in base al layout_map definito sopra. Ora carica il modello in modo distribuito.

model_parallel = keras.distribution.ModelParallel(
    device_mesh, layout_map, batch_dim_name="batch")

gemma_lm = keras_nlp.models.GemmaCausalLM.from_preset("gemma_7b_en")
Ora verifica che il modello sia stato partizionato correttamente. Prendiamo come esempio decoder_block_1.

decoder_block_1 = gemma_lm.backbone.get_layer('decoder_block_1')
for variable in decoder_block_1.weights:
  print(f'{variable.path:<58}  {str(variable.shape):<16}  {str(variable.value.sharding.spec)}')
<class 'keras_nlp.src.models.gemma.gemma_decoder_block.GemmaDecoderBlock'>
decoder_block_1/pre_attention_norm/scale                    (3072,)           PartitionSpec(None,)
decoder_block_1/attention/query/kernel                      (16, 3072, 256)   PartitionSpec(None, 'model', None)
decoder_block_1/attention/key/kernel                        (16, 3072, 256)   PartitionSpec(None, 'model', None)
decoder_block_1/attention/value/kernel                      (16, 3072, 256)   PartitionSpec(None, 'model', None)
decoder_block_1/attention/attention_output/kernel           (16, 256, 3072)   PartitionSpec(None, None, 'model')
decoder_block_1/pre_ffw_norm/scale                          (3072,)           PartitionSpec(None,)
decoder_block_1/ffw_gating/kernel                           (3072, 24576)     PartitionSpec('model', None)
decoder_block_1/ffw_gating_2/kernel                         (3072, 24576)     PartitionSpec('model', None)
decoder_block_1/ffw_linear/kernel                           (24576, 3072)     PartitionSpec(None, 'model')

Inferenza prima dell'ottimizzazione

gemma_lm.generate("Best comedy movies in the 90s ", max_length=64)
'Best comedy movies in the 90s 1. The Naked Gun 2½: The Smell of Fear (1991) 2. Wayne’s World (1992) 3. The Naked Gun 33⅓: The Final Insult (1994)'

Il modello genera un elenco di grandi commedie degli anni '90 da guardare. Ora ottimizziamo il modello Gemma per cambiare lo stile di output.

Ottimizza con IMDB

import tensorflow_datasets as tfds

imdb_train = tfds.load(
# Drop labels.
imdb_train = x, y: x)

b"This was an absolutely terrible movie. Don't be lured in by Christopher Walken or Michael Ironside. Both are great actors, but this must simply be their worst role in history. Even their great acting could not redeem this movie's ridiculous storyline. This movie is an early nineties US propaganda piece. The most pathetic scenes were those when the Columbian rebels were making their cases for revolutions. Maria Conchita Alonso appeared phony, and her pseudo-love affair with Walken was nothing but a pathetic emotional plug in a movie that was devoid of any real meaning. I am disappointed that there are movies like this, ruining actor's like Christopher Walken's good name. I could barely sit through it."
# Use a subset of the dataset for faster training.
imdb_train = imdb_train.take(2000)

Esegui l'ottimizzazione utilizzando la tecnologia Low Rank Adapter (LoRA). LoRA è una tecnica di ottimizzazione che riduce notevolmente il numero di parametri addestrabili per le attività downstream congelando i pesi completi del modello e inserendo nel modello un numero inferiore di nuovi pesi addestrabili. Fondamentalmente, LoRA riparametrizza le matrici a tutto peso più grandi con 2 matrici di basso livello più piccole AxB da addestrare e questa tecnica rende l'addestramento molto più veloce ed efficiente in termini di memoria.

# Enable LoRA for the model and set the LoRA rank to 4.
# Fine-tune on the IMDb movie reviews dataset.

# Limit the input sequence length to 128 to control memory usage.
gemma_lm.preprocessor.sequence_length = 128
# Use AdamW (a common optimizer for transformer models).
optimizer = keras.optimizers.AdamW(
# Exclude layernorm and bias terms from decay.
optimizer.exclude_from_weight_decay(var_names=["bias", "scale"])

gemma_lm.summary(), epochs=1)
<keras.src.callbacks.history.History at 0x7e9cac7f41c0>

L'attivazione di LoRA riduce significativamente il numero di parametri addestrabili, da 7 miliardi a soli 11 milioni.

Inferenza dopo l'ottimizzazione

gemma_lm.generate("Best comedy movies in the 90s ", max_length=64)
"Best comedy movies in the 90s \n\nThis is the movie that made me want to be a director. It's a great movie, and it's still funny today. The acting is superb, the writing is excellent, the music is perfect for the movie, and the story is great."

Dopo il perfezionamento, il modello ha appreso lo stile delle recensioni cinematografiche e ora sta generando output in questo stile nel contesto dei film comici degli anni '90.

Passaggi successivi

In questo tutorial hai imparato a usare il backend KerasNLP JAX per ottimizzare un modello Gemma sul set di dati IMDb in modo distribuito sulle potenti TPU. Ecco alcuni suggerimenti su cos'altro imparare: