O Gemma 3n foi lançado com entrada de áudio e otimizado para uso em dispositivos do dia a dia. Saiba mais

Esta página foi traduzida pela API Cloud Translation.

Ajuste fino do modelo Gemma

O ajuste refinado de um modelo de inteligência artificial (IA) generativa, como o Gemma, modifica o comportamento dele. Normalmente, você ajusta a Gemma com a intenção de melhorar a performance dela em uma tarefa ou domínio específico ou para desempenhar melhor uma função, como atendimento ao cliente. Os modelos do Gemma são lançados com pesos abertos, o que significa que você pode modificar esses pesos, mudando o comportamento do modelo. As etapas gerais para ajuste refinado de um modelo do Gemma são as seguintes:

Escolha um framework
Coletar dados
Ajustar e testar o modelo
Implantar o modelo

Escolher um framework

Os modelos da Gemma são compatíveis com várias estruturas de ajuste de IA. Cada framework oferece várias vantagens e geralmente é restrito a um formato de modelo específico. Confira guias para ajustar modelos do Gemma com vários frameworks:

Keras usando LoRA
Biblioteca Gemma para JAX
Hugging Face
- Transformers e PEFT
- LLamMA Factory (link em inglês)
- XTuner
GKE do Google Cloud (multi-GPU com transformadores HF)
Vertex AI do Google Cloud
Unsloth (em inglês)
Axolotl (em inglês)
Keras usando ajuste distribuído

Confira se o formato do modelo de implantação pretendido, como Keras, Safetensors ou GGUF, é compatível como saída pela estrutura escolhida.

Coletar dados

O ajuste de modelos exige dados. Os dados de ajuste geralmente consistem em pares de dados de entrada com a resposta esperada. Há muitos conjuntos de dados públicos disponíveis on-line para treinamento em várias tarefas ou saídas. Por exemplo, se você quiser treinar um modelo da Gemma para traduzir descrições de peças de carro para números de peças, seu conjunto de dados poderá incluir o seguinte:

training_data = [
  {"input_text": "Part number for A4 brake caliper", "output_text": "4M0615107BS"},
  {"input_text": "Part number for Beetle fuel pump", "output_text": "6A127026H"},
  {"input_text": "Part number for Camaro cylinder head", "output_text": "12711770"},
]

Se você quiser que um modelo da Gemma execute um conjunto específico de tarefas ou funções, geralmente é necessário compilar um conjunto de dados que demonstre várias variações dessa tarefa. A quantidade de dados necessária para ajustar um modelo depende das suas metas, principalmente da mudança de comportamento que você quer do modelo e da qualidade de desempenho com base na tarefa a ser realizada e no nível de variação nos dados de entrada.

Em geral, comece com um pequeno conjunto de dados para o ajuste da tarefa, ajuste os parâmetros de treinamento e adicione dados até alcançar a performance que atenda às suas necessidades. Alguns dos nossos aplicativos de exemplo mostram que é possível influenciar o comportamento de um modelo da Gemma com apenas 20 pares de comandos e respostas. Para mais detalhes, consulte Criar um assistente de IA de e-mail comercial com o Gemma e Tarefas em idiomas falados com o Gemma.

Ajustar e testar o modelo

Depois de ter uma estrutura e dados de ajuste, é possível iniciar o processo de ajuste do modelo Gemma. Ao fazer o ajuste, você tem algumas opções que afetam os recursos necessários para concluir o processo. Você também precisa ter um plano de teste para o modelo ajustado e avaliar se ele está funcionando da maneira desejada após o ajuste.

Ajuste da eficiência dos parâmetros

Ao fazer o ajuste fino de um modelo de pesos abertos, como o Gemma, você pode ajustar todos os parâmetros do modelo ou usar uma técnica de ajuste eficiente de parâmetros menos intensiva em recursos, que atualiza um subconjunto deles. Uma abordagem de ajuste completo significa que, ao aplicar os dados de ajuste, você calcula novos pesos para todos os parâmetros do modelo. Essa abordagem exige muita computação e memória, já que você realiza esses cálculos para bilhões de parâmetros. Usar abordagens de ajuste menos intensivas em recursos, chamadas de ajuste fino com eficiência de parâmetros (PEFT), incluindo técnicas como o ajuste de adaptador de baixa classificação (LoRA), pode produzir resultados semelhantes com menos recursos de computação. Para detalhes sobre como fazer o ajuste com menos recursos usando a LoRA, consulte Ajustar modelos do Gemma no Keras usando a LoRA e Ajustar modelos do Gemma no Hugging Face.

Testar modelos ajustados

Depois de ajustar um modelo para uma tarefa específica, teste a performance dele em relação ao conjunto de tarefas que você quer que ele execute. Teste seu modelo com tarefas ou solicitações para as quais ele não foi treinado especificamente. A maneira de testar o modelo ajustado depende da tarefa que você quer que ele execute e de como você gerencia as entradas e saídas do modelo. Uma maneira comum de gerenciar o teste de modelos generativos é usar casos de sucesso, falha e limítrofes:

Testes de sucesso: solicitações que o modelo ajustado sempre deve conseguir executar com êxito.
Testes de falha: solicitações que o modelo ajustado não deve conseguir realizar ou se recusar explicitamente a realizar, se solicitado.
Testes de limite: solicitações que o modelo ajustado precisa conseguir realizar se estiverem dentro de um limite definido ou de um conjunto de limites de comportamento de saída aceitável.

Ao testar condições de falha ou limite para seu aplicativo de IA generativa, também é necessário aplicar abordagens, técnicas e ferramentas de segurança de IA generativa, conforme descrito no toolkit de IA generativa responsável.

Implantar o modelo

Depois de concluir o ajuste e os testes, é hora de implantar o modelo. Normalmente, consulte a documentação do framework escolhido para saber como implantar um modelo ajustado.

Se você estiver implantando um modelo com pesos ajustados de LoRA, observe que, com essa técnica, normalmente é possível implantar o modelo original e os pesos dele com os pesos de LoRA como uma camada de cálculo adicional para o modelo.