Ajuste distribuído com o Gemma usando o Keras

Visão geral

O Gemma é uma família de modelos abertos leves e de última geração criados com base na pesquisa e na tecnologia usadas para criar os modelos do Google Gemini. O Gemma pode ser ajustado para atender a necessidades específicas. No entanto, modelos de linguagem grandes, como o Gemma, podem ser muito grandes e alguns podem não caber em um acelerador de canto para ajustes. Nesse caso, há duas abordagens gerais para ajustar o problema:

  1. Ajuste fino com eficiência de parâmetros (PEFT, na sigla em inglês), que busca encolher o tamanho efetivo do modelo sacrificando a fidelidade. O LoRA se enquadra nessa categoria, e o tutorial Ajustar modelos Gemma no Keras usando LoRA demonstra como ajustar o modelo Gemma 2B gemma_2b_en com LoRA usando KerasNLP em uma única GPU.
  2. Ajuste fino completo do parâmetro com paralelismo de modelo. O paralelismo de modelo distribui os pesos de um único modelo em vários dispositivos e permite a escalabilidade horizontal. Saiba mais sobre o treinamento distribuído neste guia do Keras.

Neste tutorial, mostramos como usar o Keras com um back-end JAX para ajustar o modelo Gemma 7B com o LoRA e o treinamento distribuído de parallismo na Unidade de Processamento de Tensor (TPU) do Google. O LoRA pode ser desativado neste tutorial para uma configuração de parâmetro completa mais lenta, mas mais precisa.

Como usar aceleradores

Tecnicamente, é possível usar TPU ou GPU para este tutorial.

Observações sobre ambientes de TPU

O Google tem três produtos que oferecem TPUs:

  • O Colab fornece a TPU v2 sem custo financeiro, o que é suficiente para este tutorial.
  • O Kaggle oferece TPU v3 sem custo financeiro e também funciona para este tutorial.
  • A Cloud TPU oferece a TPU v3 e gerações mais recentes. Uma maneira de configurar isso é:
    1. Crie uma VM de TPU.
    2. Configure o encaminhamento de portas SSH para a porta do servidor Jupyter desejada.
    3. Instale e inicie o Jupyter na VM da TPU. Em seguida, conecte-se ao Colab usando a opção "Conectar a um ambiente de execução local".

Notas sobre a configuração de várias GPUs

Embora este tutorial se concentre no caso de uso da TPU, você pode adaptá-lo facilmente às suas próprias necessidades se tiver uma máquina com várias GPUs.

Se você preferir trabalhar no Colab, também é possível provisionar uma VM multi-GPU para o Colab diretamente em "Conectar a uma VM do GCE personalizada" no menu do Colab Connect.

Vamos nos concentrar no uso da TPU sem custo financeiro do Kaggle aqui.

Antes de começar

Credenciais do Kaggle

Os modelos Gemma são hospedados pelo Kaggle. Solicite acesso no Kaggle para usar o Gemma:

  • Faça login ou se inscreva em kaggle.com.
  • Abra o card de modelo do Gemma e selecione "Solicitar acesso".
  • Preencha o formulário de consentimento e aceite os Termos e Condições

Em seguida, para usar a API Kaggle, crie um token de API:

  • Abra as configurações do Kaggle.
  • Selecione "Criar novo token".
  • O download de um arquivo kaggle.json é feito. Ele contém suas credenciais do Kaggle

Execute a célula a seguir e insira suas credenciais do Kaggle quando solicitado.

# If you are using Kaggle, you don't need to login again.
!pip install ipywidgets
import kagglehub

Outra opção é definir KAGGLE_USERNAME e KAGGLE_KEY no seu ambiente caso kagglehub.login() não funcione para você.


Instale o Keras e o KerasNLP com o modelo Gemma.

pip install -q -U keras-nlp
# Work around an import error with tensorflow-hub. The library is not used.
pip install -q -U tensorflow-hub
# Install tensorflow-cpu so tensorflow does not attempt to access the TPU.
pip install -q -U tensorflow-cpu tensorflow-text
# Install keras 3 last. See https://keras.io/getting_started for details.
pip install -q -U keras

Configurar o back-end do Keras JAX

Importe o JAX e execute uma verificação de integridade na TPU. O Kaggle oferece dispositivos TPUv3-8 com 8 núcleos de TPU e 16 GB de memória cada.

import jax

[TpuDevice(id=0, process_index=0, coords=(0,0,0), core_on_chip=0),
 TpuDevice(id=1, process_index=0, coords=(0,0,0), core_on_chip=1),
 TpuDevice(id=2, process_index=0, coords=(1,0,0), core_on_chip=0),
 TpuDevice(id=3, process_index=0, coords=(1,0,0), core_on_chip=1),
 TpuDevice(id=4, process_index=0, coords=(0,1,0), core_on_chip=0),
 TpuDevice(id=5, process_index=0, coords=(0,1,0), core_on_chip=1),
 TpuDevice(id=6, process_index=0, coords=(1,1,0), core_on_chip=0),
 TpuDevice(id=7, process_index=0, coords=(1,1,0), core_on_chip=1)]
import os

# The Keras 3 distribution API is only implemented for the JAX backend for now
os.environ["KERAS_BACKEND"] = "jax"
# Pre-allocate 90% of TPU memory to minimize memory fragmentation and allocation
# overhead
os.environ["XLA_PYTHON_CLIENT_MEM_FRACTION"] = "0.9"

Carregar modelo

import keras
import keras_nlp

Notas sobre o treinamento de precisão mista em GPUs NVIDIA

Ao treinar em GPUs NVIDIA, a precisão mista (keras.mixed_precision.set_global_policy('mixed_bfloat16')) pode ser usada para acelerar o treinamento com efeito mínimo na qualidade dele. Na maioria dos casos, é recomendável ativar a precisão mista, porque ela economiza memória e tempo. No entanto, em tamanhos de lote pequenos, o uso da memória pode aumentar em 1,5x (os pesos serão carregados duas vezes, com metade da precisão e precisão total).

Para inferência, a meia-precisão (keras.config.set_floatx("bfloat16")) funciona e economiza memória, mas a precisão mista não é aplicável.

# Uncomment the line below if you want to enable mixed precision training on GPUs
# keras.mixed_precision.set_global_policy('mixed_bfloat16')

Para carregar o modelo com os pesos e os tensors distribuídos entre os TPUs, crie primeiro um novo DeviceMesh. DeviceMesh representa uma coleção de dispositivos de hardware configurados para computação distribuída e foi introduzido no Keras 3 como parte da API de distribuição unificada.

A API de distribuição permite o paralelismo de dados e modelos, possibilitando o escalonamento eficiente de modelos de aprendizado profundo em vários aceleradores e hosts. Ele usa o framework subjacente (por exemplo, JAX) para distribuir o programa e os tensores de acordo com as diretivas de fragmentação por um procedimento chamado expansão de programa único, dados múltiplos (SPMD, na sigla em inglês). Confira mais detalhes no novo guia da API de distribuição do Keras 3.

# Create a device mesh with (1, 8) shape so that the weights are sharded across
# all 8 TPUs.
device_mesh = keras.distribution.DeviceMesh(
    (1, 8),
    ["batch", "model"],

LayoutMap da API de distribuição especifica como os pesos e os tensores precisam ser divididos ou replicados, usando as chaves de string, por exemplo, token_embedding/embeddings abaixo, que são tratadas como regex para corresponder aos caminhos do tensor. Os tensors correspondentes são divididos com dimensões de modelo (8 TPUs); os outros são totalmente replicados.

model_dim = "model"

layout_map = keras.distribution.LayoutMap(device_mesh)

# Weights that match 'token_embedding/embeddings' will be sharded on 8 TPUs
layout_map["token_embedding/embeddings"] = (model_dim, None)
# Regex to match against the query, key and value matrices in the decoder
# attention layers
layout_map["decoder_block.*attention.*(query|key|value).*kernel"] = (
    model_dim, None, None)

layout_map["decoder_block.*attention_output.*kernel"] = (
    model_dim, None, None)
layout_map["decoder_block.*ffw_gating.*kernel"] = (None, model_dim)
layout_map["decoder_block.*ffw_linear.*kernel"] = (model_dim, None)

O ModelParallel permite dividir pesos de modelo ou tensores de ativação em todos os dispositivos no DeviceMesh. Nesse caso, alguns dos pesos do modelo Gemma 7B são fragmentados em oito chips de TPU de acordo com o layout_map definido acima. Agora carregue o modelo de forma distribuída.

model_parallel = keras.distribution.ModelParallel(
    layout_map=layout_map, batch_dim_name="batch")

gemma_lm = keras_nlp.models.GemmaCausalLM.from_preset("gemma_7b_en")
Agora verifique se o modelo foi particionado corretamente. Vamos usar decoder_block_1 como exemplo.

decoder_block_1 = gemma_lm.backbone.get_layer('decoder_block_1')
for variable in decoder_block_1.weights:
  print(f'{variable.path:<58}  {str(variable.shape):<16}  {str(variable.value.sharding.spec)}')
<class 'keras_nlp.src.models.gemma.gemma_decoder_block.GemmaDecoderBlock'>
decoder_block_1/pre_attention_norm/scale                    (3072,)           PartitionSpec(None,)
decoder_block_1/attention/query/kernel                      (16, 3072, 256)   PartitionSpec(None, 'model', None)
decoder_block_1/attention/key/kernel                        (16, 3072, 256)   PartitionSpec(None, 'model', None)
decoder_block_1/attention/value/kernel                      (16, 3072, 256)   PartitionSpec(None, 'model', None)
decoder_block_1/attention/attention_output/kernel           (16, 256, 3072)   PartitionSpec(None, None, 'model')
decoder_block_1/pre_ffw_norm/scale                          (3072,)           PartitionSpec(None,)
decoder_block_1/ffw_gating/kernel                           (3072, 24576)     PartitionSpec('model', None)
decoder_block_1/ffw_gating_2/kernel                         (3072, 24576)     PartitionSpec('model', None)
decoder_block_1/ffw_linear/kernel                           (24576, 3072)     PartitionSpec(None, 'model')

Inferência antes do ajuste fino

gemma_lm.generate("Best comedy movies in the 90s ", max_length=64)
'Best comedy movies in the 90s 1. The Naked Gun 2½: The Smell of Fear (1991) 2. Wayne’s World (1992) 3. The Naked Gun 33⅓: The Final Insult (1994)'

O modelo gera uma lista de ótimos filmes de comédia dos anos 90 para assistir. Agora vamos ajustar o modelo Gemma para mudar o estilo de saída.

Sintonia fina com o IMDB

import tensorflow_datasets as tfds

imdb_train = tfds.load(
# Drop labels.
imdb_train = imdb_train.map(lambda x, y: x)

b"This was an absolutely terrible movie. Don't be lured in by Christopher Walken or Michael Ironside. Both are great actors, but this must simply be their worst role in history. Even their great acting could not redeem this movie's ridiculous storyline. This movie is an early nineties US propaganda piece. The most pathetic scenes were those when the Columbian rebels were making their cases for revolutions. Maria Conchita Alonso appeared phony, and her pseudo-love affair with Walken was nothing but a pathetic emotional plug in a movie that was devoid of any real meaning. I am disappointed that there are movies like this, ruining actor's like Christopher Walken's good name. I could barely sit through it."
# Use a subset of the dataset for faster training.
imdb_train = imdb_train.take(2000)

Faça ajustes usando a adaptação de baixa classificação (LoRA, na sigla em inglês). A LoRA é uma técnica de ajuste fino que reduz bastante o número de parâmetros treináveis para tarefas posteriores, congelando os pesos completos do modelo e inserindo um número menor de novos pesos treináveis. Basicamente, a LoRA reparameteriza as matrizes de peso completas maiores por duas matrizes AxB de baixa classificação menores para treinar, e essa técnica torna o treinamento muito mais rápido e eficiente em termos de memória.

# Enable LoRA for the model and set the LoRA rank to 4.
# Fine-tune on the IMDb movie reviews dataset.

# Limit the input sequence length to 128 to control memory usage.
gemma_lm.preprocessor.sequence_length = 128
# Use AdamW (a common optimizer for transformer models).
optimizer = keras.optimizers.AdamW(
# Exclude layernorm and bias terms from decay.
optimizer.exclude_from_weight_decay(var_names=["bias", "scale"])

gemma_lm.fit(imdb_train, epochs=1)
2000/2000 ━━━━━━━━━━━━━━━━━━━━ 358s 163ms/step - loss: 2.7145 - sparse_categorical_accuracy: 0.4329
<keras.src.callbacks.history.History at 0x7e9cac7f41c0>

A ativação da LoRa reduz significativamente o número de parâmetros treináveis, de 7 bilhões para apenas 11 milhões.

Inferência após o ajuste fino

gemma_lm.generate("Best comedy movies in the 90s ", max_length=64)
"Best comedy movies in the 90s \n\nThis is the movie that made me want to be a director. It's a great movie, and it's still funny today. The acting is superb, the writing is excellent, the music is perfect for the movie, and the story is great."

Depois de fazer ajustes, o modelo aprendeu o estilo das críticas de filmes e agora gera saídas nesse estilo no contexto de filmes de comédia dos anos 90.

A seguir

Neste tutorial, você aprendeu a usar o back-end do JAX do KerasNLP para ajustar um modelo do Gemma no conjunto de dados do IMDb de maneira distribuída nas TPUs. Confira algumas sugestões do que mais aprender: