Cartão de modelo Gemma

Página de modelo: Gemma

Recursos e documentação técnica:

Termos de Uso: Termos

Autores: Google

Informações do modelo

Descrição resumida e uma breve definição de entradas e saídas.

Descrição

A Gemma é uma família de modelos abertos leves e de última geração do Google, criados a partir da mesma pesquisa e tecnologia usadas para criar os modelos do Gemini. Eles são modelos de linguagem grandes somente decodificadores para texto, disponíveis em inglês, com pesos abertos, variantes pré-treinadas e variantes ajustadas por instrução. Os modelos Gemma são adequados para várias tarefas de geração de texto, incluindo respostas a perguntas, resumo e raciocínio. Seu tamanho relativamente pequeno permite implantá-los em ambientes com recursos limitados, como um laptop, computador ou sua própria infraestrutura em nuvem, democratizando o acesso a modelos de IA de última geração e ajudando a promover a inovação para todos.

Entradas e saídas

  • Entrada:string de texto, como uma pergunta, um comando ou um documento a ser resumido.
  • Saída:texto em inglês gerado em resposta à entrada, como uma resposta a uma pergunta ou o resumo de um documento.

Citação

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Dados do modelo

Dados usados para treinamento de modelo e como eles foram processados.

Conjunto de dados de treinamento

Esses modelos foram treinados em um conjunto de dados de dados de texto que inclui uma ampla variedade de fontes, totalizando 6 trilhões de tokens. Estes são os principais componentes:

  • Documentos da Web: uma coleção diversificada de textos da Web garante que o modelo seja exposto a uma ampla variedade de estilos linguísticos, tópicos e vocabulário. Principalmente conteúdo em inglês.
  • Código: a exposição do modelo ao código o ajuda a aprender a sintaxe e os padrões das linguagens de programação, o que melhora a capacidade de gerar código ou entender questões relacionadas a código.
  • Matemática: o treinamento em texto matemático ajuda o modelo a aprender raciocínio lógico, representação simbólica e lidar com consultas matemáticas.

A combinação dessas fontes de dados diversas é crucial para treinar um modelo de linguagem poderoso capaz de lidar com uma ampla variedade de tarefas e formatos de texto diferentes.

Pré-processamento de dados

Estes são os principais métodos de limpeza e filtragem de dados aplicados aos dados de treinamento:

  • Filtragem de CSAM: a filtragem rigorosa de material de abuso sexual infantil (CSAM, na sigla em inglês) foi aplicada em várias etapas no processo de preparação de dados para garantir a exclusão de conteúdo nocivo e ilegal.
  • Filtragem de dados confidenciais: como parte do processo de tornar os modelos pré-treinados com Gemma seguros e confiáveis, foram usadas técnicas automatizadas para filtrar determinadas informações pessoais e outros dados sensíveis dos conjuntos de treinamento.
  • Outros métodos: filtragem com base na qualidade e na segurança do conteúdo de acordo com nossas políticas.

Informações de implementação

Detalhes sobre os aspectos internos do modelo.

Hardware

O Gemma foi treinado usando a geração mais recente do hardware da Unidade de Processamento de Tensor (TPU) (TPUv5e).

O treinamento de modelos de linguagem grandes requer um poder computacional significativo. As TPUs, projetadas especificamente para operações de matriz comuns no machine learning, oferecem várias vantagens nesse domínio:

  • Desempenho: as TPUs são projetadas especificamente para processar os enormes cálculos envolvidos no treinamento de LLMs. Elas podem acelerar consideravelmente o treinamento em comparação com as CPUs.
  • Memória: as TPUs geralmente vêm com grandes quantidades de memória de alta largura de banda, permitindo o processamento de modelos grandes e tamanhos de lote durante o treinamento. Isso pode melhorar a qualidade do modelo.
  • Escalonabilidade: os pods de TPU (grandes clusters de TPUs) fornecem uma solução escalonável para processar a complexidade crescente de modelos de fundação grandes. O treinamento pode ser distribuído entre vários dispositivos TPU para um processamento mais rápido e eficiente.
  • Custo-benefício: em muitos cenários, as TPUs podem oferecer uma solução mais econômica para treinar modelos grandes em comparação com a infraestrutura baseada em CPU, especialmente ao considerar o tempo e os recursos economizados devido ao treinamento mais rápido.
  • Essas vantagens estão alinhadas com os compromissos do Google de operar de forma sustentável.

Software

O treinamento foi realizado usando JAX e ML Pathways.

O JAX permite que os pesquisadores aproveitem a geração mais recente de hardware, incluindo TPUs, para um treinamento mais rápido e eficiente de modelos grandes.

O programa de treinamentos de ML é o esforço mais recente do Google para criar sistemas artificialmente inteligentes capazes de generalizar em várias tarefas. Isso é especialmente adequado para modelos de fundação, incluindo modelos de linguagem grandes como esses.

Juntos, os programas de treinamentos do JAX e do ML são usados conforme descrito no artigo sobre a família de modelos Gemini. "O modelo de programação de um único controlador do Jax e do Pathways permite que um único processo do Python orquestre toda a execução de treinamento, simplificando drasticamente o fluxo de trabalho de desenvolvimento".

Avaliação

Métricas e resultados de avaliação de modelos.

Resultados da comparação

Esses modelos foram avaliados em relação a uma grande coleção de conjuntos de dados e métricas diferentes para abranger diferentes aspectos da geração de texto:

Benchmark Métrica Gemma PT 2B Gemma PT 7B
MMLU (em inglês) 5 rebatidas, top-1 42,3 64,3
HellaSwag 0 tiro 71,4 81,2
PIQA (em inglês) 0 tiro 77,3 81,2
SocialIQA 0 tiro 49,7 51,8
BoolQ 0 tiro 69,4 83,2
WinoGrande pontuação parcial 65,4 72,3
CommonsenseQA 7 tiros 65,3 71,3
OpenBookQA 47,8 52,8
ARC-e (link em inglês) 73,2 81,5
ARC-c (link em inglês) 42,1 53.2
TriviaQA 5 tiros 53.2 63,4
Perguntas naturais 5 tiros 12,5 23,0
HumanEval passe@1 22,0 32,3
MBPP (em inglês) 3 tiros 29,2 44,4
GSM8K (em inglês) maj@1 17,7 46,4
MATH 4 tiros 11.8 24,3
AGIEval 24,2 41,7
Bigbench (em inglês) 35,2 55.1
Na média 44,9 56,4

Ética e Segurança

Abordagem e resultados de avaliação de ética e segurança.

Abordagem de avaliação

Nossos métodos incluem avaliações estruturadas e testes internos em equipe vermelha de políticas de conteúdo relevantes. A equipe vermelha foi conduzida por várias equipes diferentes, cada uma com metas e métricas de avaliação humana distintas. Esses modelos foram avaliados em relação a várias categorias diferentes relevantes para ética e segurança, incluindo:

  • Segurança de conteúdo de texto em texto: avaliação humana de comandos que abordam políticas de segurança, incluindo abuso e exploração sexual infantil, assédio, violência e sangue, além de discurso de ódio.
  • Danos representacionais de texto em texto: faça um comparativo de mercado em relação a conjuntos de dados acadêmicos relevantes, como WinoBias e Conjunto de dados churrasco (links em inglês).
  • Memorização: avaliação automatizada da memorização de dados de treinamento, incluindo o risco de exposição de informações de identificação pessoal.
  • Danos em grande escala: testes de "capacidades perigosas", como riscos químicos, biológicos, radiológicos e nucleares (CBRN, na sigla em inglês).

Resultados da avaliação

Os resultados das avaliações de ética e segurança estão dentro de limites aceitáveis para atender a políticas internas de categorias como segurança infantil, segurança do conteúdo, danos à representatividade, memorização e danos em grande escala. Além de avaliações internas robustas, os resultados de comparações de segurança conhecidas, como Churrasco, BOLD, Winogender, Winobias, RealToxicity e TruthfulQA são mostrados aqui.

Gemma 1.0 (link em inglês)

Benchmark Métrica Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity Média 6,86 7,90
NEGRITO 45,57 49,08
CrowS-Pairs (em inglês) top-1 45,82 51,33
Churrasco 1 tiro, top 1 62,58 92,54
Desambigode churrasco top-1 54,62 71,99
Winogender top-1 51,25 54,17
TruthfulQA 44,84 31,81
Winobias 1_2 56,12 59,09
Winobias 2_2 91,10 92,23
Toxigênio 29,77 39,59

Gemma 1.1 (link em inglês)

Benchmark Métrica Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity Média 7,03 8,04
NEGRITO 47,76
CrowS-Pairs (em inglês) top-1 45,89 49,67
Churrasco 1 tiro, top 1 58,97 86,06
Desambigode churrasco top-1 53,90 85,08
Winogender top-1 50,14 57,64
TruthfulQA 44,24 45,34
Winobias 1_2 55,93 59,22
Winobias 2_2 89,46 89,2
Toxigênio 29,64 38,75

Uso e limitações

Esses modelos têm certas limitações que os usuários devem conhecer.

Uso pretendido

Os modelos de linguagem grande (LLMs) abertos têm uma ampla variedade de aplicativos em vários setores e domínios. A lista de possíveis usos a seguir não é abrangente. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores do modelo consideraram como parte do treinamento e do desenvolvimento do modelo.

  • Criação de conteúdo e comunicação
    • Geração de texto: esses modelos podem ser usados para gerar formatos de texto criativos, como poemas, scripts, códigos, textos de marketing e rascunhos de e-mails.
    • Chatbots e IA de conversação: potencialize interfaces de conversação para atendimento ao cliente, assistentes virtuais ou aplicativos interativos.
    • Resumo de texto: gere resumos concisos de um corpus de texto, artigos de pesquisa ou relatórios.
  • Pesquisa e educação
    • Pesquisa de processamento de linguagem natural (PLN): esses modelos podem servir como base para que os pesquisadores testem técnicas de PLN, desenvolvam algoritmos e contribuam para o avanço da área.
    • Ferramentas de aprendizado de idiomas: ofereça suporte a experiências interativas de aprendizado de idiomas, ajudando na correção gramatical ou prática de escrita.
    • Exploração do conhecimento: ajude pesquisadores a explorar grandes corpos de texto gerando resumos ou respondendo a perguntas sobre tópicos específicos.

Limitações

  • Dados de treinamento
    • A qualidade e a diversidade dos dados de treinamento influenciam significativamente as capacidades do modelo. Vieses ou lacunas nos dados de treinamento podem levar a limitações nas respostas do modelo.
    • O escopo do conjunto de dados de treinamento determina as áreas temáticas que o modelo pode lidar com eficácia.
  • Contexto e complexidade das tarefas
    • Os LLMs são melhores em tarefas que podem ser enquadradas com instruções e instruções claras. Tarefas abertas ou altamente complexas podem ser desafiadoras.
    • O desempenho de um modelo pode ser influenciado pela quantidade de contexto fornecido (um contexto mais longo geralmente leva a melhores resultados até um certo ponto).
  • Ambiguidade e nuance da linguagem
    • A linguagem natural é inerentemente complexa. os LLMs podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
  • Precisão factual
    • Os LLMs geram respostas com base nas informações que aprenderam com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Podem gerar declarações factuais incorretas ou desatualizadas.
  • Bom senso
    • Os LLMs dependem de padrões estatísticos na linguagem. Eles podem não conseguir aplicar o raciocínio de bom senso em determinadas situações.

Considerações e riscos éticos

O desenvolvimento de modelos de linguagem grandes (LLMs) gera várias preocupações éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:

  • Viés e imparcialidade
    • LLMs treinados com dados de texto em grande escala do mundo real podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos foram submetidos a um exame cuidado, à descrição do pré-processamento de dados de entrada e a avaliações posteriores informadas neste card.
  • Desinformação e uso indevido
  • Transparência e responsabilidade:
    • Este card de modelo resume os detalhes sobre a arquitetura, os recursos, as limitações e os processos de avaliação dos modelos.
    • Um modelo aberto desenvolvido com responsabilidade oferece a oportunidade de compartilhar inovações, tornando a tecnologia LLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigações:

  • Perpetuação de vieses: é recomendável realizar um monitoramento contínuo (usando métricas de avaliação, revisão humana) e a exploração de técnicas de neutralização durante o treinamento do modelo, o ajuste correto e outros casos de uso.
  • Geração de conteúdo nocivo: mecanismos e diretrizes de segurança do conteúdo são essenciais. Recomendamos que os desenvolvedores tenham cuidado e implementem salvaguardas de segurança de conteúdo adequadas com base nas políticas de produtos específicas e nos casos de uso do aplicativo.
  • Uso indevido para fins maliciosos: limitações técnicas e orientações para desenvolvedores e usuários finais podem ajudar a mitigar aplicativos maliciosos de LLMs. São fornecidos recursos educacionais e mecanismos de geração de relatórios para que os usuários sinalizem o uso indevido. Os usos proibidos de modelos Gemma estão descritos na Política de uso proibido da Gemma.
  • Violações de privacidade: os modelos foram treinados em dados filtrados para remoção de PII (informações de identificação pessoal). Recomendamos que os desenvolvedores sigam os regulamentos de privacidade usando técnicas que preservam a privacidade.

Vantagens

No momento do lançamento, essa família de modelos fornece implementações de modelos de linguagem grandes abertos e de alto desempenho projetadas desde o início para o desenvolvimento de IA responsável, em comparação com modelos de tamanhos semelhantes.

Usando as métricas de avaliação de comparativo de mercado descritas neste documento, esses modelos demonstraram um desempenho superior a outras alternativas de modelo aberto de tamanho comparável.