Card de modelo Gemma 2

Página de modelo: Gemma

Recursos e documentação técnica:

Termos de Uso: Termos

Autores: Google

Informações do modelo

Descrição resumida e definição breve de entradas e saídas.

Descrição

O Gemma é uma família de modelos abertos, leves e de última geração do Google, criados com a mesma pesquisa e tecnologia usadas no Gemini. Eles são modelos de linguagem grandes de texto para texto, somente decodificadores, disponíveis em inglês, com pesos abertos para variantes pré-treinadas e variantes ajustadas por instrução. Os modelos Gemma são adequados para várias tarefas de geração de texto, incluindo resposta a perguntas, resumo e raciocínio. Seu tamanho relativamente pequeno permite que eles sejam implantados em ambientes com recursos limitados, como um laptop, computador ou sua própria infraestrutura em nuvem, democratizando o acesso a modelos de IA de última geração e ajudando a promover a inovação para todos.

Entradas e saídas

  • Entrada:string de texto, como uma pergunta, um comando ou um documento a ser resumido.
  • Saída:texto gerado em inglês em resposta à entrada, como uma resposta a uma pergunta ou um resumo de um documento.

Citação

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Dados do modelo

Dados usados para treinamento de modelo e como os dados foram processados.

Conjunto de dados de treinamento

Esses modelos foram treinados em um conjunto de dados de texto que inclui uma ampla variedade de fontes. O modelo 27B foi treinado com 13 trilhões de tokens, e o 9B com 8 trilhões de tokens. Estes são os principais componentes:

  • Documentos da Web: uma coleção diversificada de textos da Web garante que o modelo seja exposto a uma ampla gama de estilos linguísticos, tópicos e vocabulário. Principalmente conteúdo em inglês.
  • Código: a exposição do modelo ao código ajuda o modelo a aprender a sintaxe e os padrões das linguagens de programação, o que melhora a capacidade de gerar código ou entender questões relacionadas a ele.
  • Matemática: o treinamento com textos matemáticos ajuda o modelo a aprender raciocínio lógico, representação simbólica e lidar com consultas matemáticas.

A combinação dessas diversas fontes de dados é crucial para treinar um modelo de linguagem poderoso que possa lidar com uma ampla variedade de tarefas e formatos de texto diferentes.

Pré-processamento de dados

Estes são os principais métodos de limpeza e filtragem de dados aplicados aos dados de treinamento:

  • Filtragem de material de abuso sexual infantil: a filtragem rigorosa de material de abuso sexual infantil foi aplicada em várias etapas no processo de preparação de dados para garantir a exclusão de conteúdo nocivo e ilegal.
  • Filtragem de dados confidenciais: como parte da segurança e confiabilidade dos modelos pré-treinados do Gemma, foram usadas técnicas automatizadas para filtrar determinadas informações pessoais e outros dados confidenciais dos conjuntos de treinamento.
  • Métodos adicionais: filtragem com base na qualidade e segurança do conteúdo, de acordo com nossas políticas.

Informações de implementação

Detalhes sobre os componentes internos do modelo.

Hardware

O Gemma foi treinado com a geração mais recente do hardware de Unidade de Processamento de Tensor (TPU) (TPUv5p).

O treinamento de modelos de linguagem grandes requer uma capacidade computacional significativa. As TPUs, projetadas especificamente para operações de matriz comuns de machine learning, oferecem várias vantagens neste domínio:

  • Desempenho: as TPUs são projetadas especificamente para lidar com as grandes computações envolvidas no treinamento de LLMs. Elas podem acelerar o treinamento consideravelmente em comparação com as CPUs.
  • Memória: as TPUs geralmente vêm com grandes quantidades de memória de alta largura de banda, o que permite o processamento de modelos grandes e tamanhos de lote durante o treinamento. Isso pode levar a uma melhor qualidade do modelo.
  • Escalonabilidade: os pods de TPU (grandes clusters de TPUs) fornecem uma solução escalonável para lidar com a complexidade crescente de modelos de fundação grandes. É possível distribuir o treinamento entre vários dispositivos de TPU para tornar o processamento mais rápido e eficiente.
  • Custo-benefício: em muitos cenários, as TPUs fornecem uma solução mais econômica para o treinamento de grandes modelos em comparação com a infraestrutura baseada em CPU, especialmente ao considerar o tempo e os recursos economizados devido ao treinamento mais rápido.
  • Essas vantagens estão alinhadas aos compromissos do Google de operar de maneira sustentável.

Software

O treinamento foi feito usando o JAX e os caminhos do ML.

O JAX permite que os pesquisadores aproveitem a geração mais recente de hardware, incluindo TPUs, para um treinamento mais rápido e eficiente de modelos grandes.

O ML Pathways é a iniciativa mais recente do Google para criar sistemas com inteligência artificial capazes de generalizar várias tarefas. Isso é especialmente adequado para modelos de fundação, incluindo modelos de linguagem grandes como esses.

Juntos, o JAX e os caminhos de ML são usados conforme descrito no artigo sobre a família de modelos Gemini. "O modelo de programação de "controlador único" de Jax e Pathways permite que um único processo de Python orquestre toda a execução de treinamento, simplificando drasticamente o fluxo de trabalho de desenvolvimento".

Avaliação

Métricas e resultados de avaliação de modelos.

Resultados do comparativo de mercado

Esses modelos foram avaliados em relação a uma grande coleção de diferentes conjuntos de dados e métricas para abranger diferentes aspectos da geração de texto:

Benchmark Métrica Gemma PT 9B Gemma PT 27B
MMLU (link em inglês) 5 tiros, top-1 71,3 75,2
HellaSwag 10 fotos 81,9 86,4
PIQA (em inglês) 0 tacada 81,7 83,2
SocialIQA 0 tacada 53,4 53,7
BoolQ 0 tacada 84,2 84,8
WinoGrande pontuação parcial 80,6 83,7
ARC-e (link em inglês) 0 tacada 88,0 88,6
ARC-c (link em inglês) 25 tiros 68,4 71,4
TriviaQA 5 tiros 76,6 83,7
Perguntas naturais 5 tiros 29,2 34,5
HumanEval passa@1 40,2 51,8
MBPP (link em inglês) 3 fotos 52,4 62,6
GSM8K (link em inglês) 5-shot, maj@1 68,6 74,0
MATH 4 fotos 36,6 42,3
AGIEval 3 a 5 fotos 52,8 55.1
BIG-Bench (link em inglês) 3 shots, camarim 68.2 74,9

Ética e Segurança

Abordagem e resultados da avaliação de ética e segurança.

Abordagem de avaliação

Nossos métodos de avaliação incluem avaliações estruturadas e testes internos de red teaming das políticas de conteúdo relevantes. A equipe vermelha era conduzida por várias equipes, cada uma com metas e métricas de avaliação humanas. Esses modelos foram avaliados em relação a várias categorias diferentes relevantes para ética e segurança, incluindo:

  • Segurança de conteúdo de conversão de texto em texto: avaliação humana de solicitações que abrangem políticas de segurança, incluindo abuso e exploração sexual infantil, assédio, violência, sangue e discurso de ódio.
  • Prejuízos representacionais de texto para texto: faça comparativos de mercado com conjuntos de dados acadêmicos relevantes, como WinoBias e conjunto de dados para churrasco.
  • Memorização: avaliação automatizada da memorização de dados de treinamento, incluindo o risco de exposição de informações de identificação pessoal.
  • Danos em grande escala: testes para "capacidades perigosas", como riscos químicos, biológicos, radiológicos e nucleares (CBRN, na sigla em inglês).

Resultados da avaliação

Os resultados das avaliações de ética e segurança estão dentro dos limites aceitáveis para atender às políticas internas de categorias como segurança infantil, segurança de conteúdo, danos à representatividade, memorização e danos em grande escala. Além de avaliações internas robustas, os resultados de comparativos de segurança conhecidos, como churrasco, BOLD, Winogender, Winobias, RealToxicity e TruthfulQA são mostrados aqui.

Gemma 2.0

Benchmark Métrica Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity Média 8,25 8,84
Crows-Pairs top-1 37,47 36,67
Churrasco Ambig 1-shot, top-1 88,58 85,99
Churrasco top-1 82,67 86,94
Winogender (link em inglês) top-1 79,17 77,22
TruthfulQA 50,27 51,60
Winobias 1_2 (link em inglês) 78,09 81,94
Winobias 2_2 (link em inglês) 95,32 97,22
Toxigenação 39,30 38,42

Uso e limitações

Esses modelos têm certas limitações que os usuários precisam estar cientes.

Uso pretendido

Os modelos de linguagem grandes (LLMs) abertos têm uma ampla gama de aplicativos em vários setores e domínios. A lista de possíveis usos a seguir não é abrangente. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores do modelo consideraram como parte do treinamento e desenvolvimento do modelo.

  • Criação e comunicação de conteúdo
    • Geração de texto: esses modelos podem ser usados para gerar formatos de texto criativos, como poemas, scripts, códigos, textos de marketing e rascunhos de e-mails.
    • Chatbots e IA de conversação: interfaces de conversação avançadas para atendimento ao cliente, assistentes virtuais ou aplicativos interativos.
    • Resumo de texto: gere resumos concisos de um corpus de texto, artigos de pesquisa ou relatórios.
  • Pesquisa e educação
    • Pesquisa de processamento de linguagem natural (PLN): esses modelos podem servir como base para que os pesquisadores testem técnicas de PLN, desenvolvam algoritmos e contribuam para o avanço dessa área.
    • Ferramentas de aprendizado de idiomas: oferecem suporte a experiências interativas de aprendizado de idiomas, auxiliando na correção gramatical ou na prática de escrita.
    • Exploração de conhecimento: ajude os pesquisadores a explorar grandes corpos de texto gerando resumos ou respondendo a perguntas sobre tópicos específicos.

Limitações

  • Dados de treinamento
    • A qualidade e a diversidade dos dados de treinamento influenciam significativamente os recursos do modelo. Vieses ou lacunas nos dados de treinamento podem resultar em limitações nas respostas do modelo.
    • O escopo do conjunto de dados de treinamento determina as áreas temáticas que o modelo pode abordar de maneira eficaz.
  • Contexto e complexidade da tarefa
    • Os LLMs são melhores em tarefas que podem ser estruturadas com comandos e instruções claros. Tarefas abertas ou altamente complexas podem ser desafiadoras.
    • O desempenho de um modelo pode ser influenciado pela quantidade de contexto fornecida. Um contexto mais longo geralmente leva a melhores saídas até um determinado ponto.
  • Ambiguidade e nuances da linguagem
    • A linguagem natural é inerentemente complexa. Os LLMs podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
  • Precisão dos fatos
    • Os LLMs geram respostas com base nas informações aprendidas nos conjuntos de dados de treinamento, mas não são bases de conhecimento. Podem gerar declarações factuais incorretas ou desatualizadas.
  • Comum
    • Os LLMs dependem de padrões estatísticos na linguagem. Eles podem não conseguir aplicar o raciocínio do bom senso em determinadas situações.

Considerações éticas e riscos

O desenvolvimento de modelos de linguagem grandes (LLMs) desperta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:

  • Viés e imparcialidade
    • LLMs treinados com dados de texto reais e em grande escala podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos passaram por um escrutínio cuidadoso, pelo pré-processamento dos dados de entrada descrito e pelas avaliações posteriores apresentadas neste card.
  • Desinformação e uso indevido
  • Transparência e responsabilidade:
    • Neste card de modelo, resumimos os detalhes sobre a arquitetura, as capacidades, as limitações e os processos de avaliação dos modelos.
    • Um modelo aberto desenvolvido de maneira responsável oferece a oportunidade de compartilhar inovações, tornando a tecnologia LLM acessível para desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigações:

  • Perpetuação de vieses: é recomendável realizar monitoramento contínuo (usando métricas de avaliação, revisão humana) e a exploração de técnicas de eliminação de vieses durante o treinamento do modelo, ajuste de detalhes e outros casos de uso.
  • Geração de conteúdo nocivo: mecanismos e diretrizes para a segurança do conteúdo são essenciais. Os desenvolvedores são incentivados a ter cautela e implementar salvaguardas de segurança de conteúdo adequadas com base nas políticas de produtos específicas e nos casos de uso de aplicativos deles.
  • Uso indevido para fins maliciosos: limitações técnicas e educação de desenvolvedores e usuários finais podem ajudar a mitigar aplicativos maliciosos de LLMs. Fornecemos recursos educacionais e mecanismos de denúncia para que os usuários sinalizem uso indevido. Os usos proibidos dos modelos do Gemma estão descritos na Política de uso proibido do Gemma.
  • Violações de privacidade: os modelos foram treinados com dados filtrados para remoção de PII (informações de identificação pessoal). Os desenvolvedores são incentivados a aderir aos regulamentações de privacidade com técnicas de preservação da privacidade.

Vantagens

No momento do lançamento, essa família de modelos oferece implementações de modelos de linguagem grandes abertos e de alto desempenho projetadas do zero para o desenvolvimento de IA responsável, em comparação com modelos de tamanho semelhante.

Usando as métricas de avaliação de comparativo de mercado descritas neste documento, esses modelos oferecem desempenho superior a outras alternativas de modelos abertos de tamanho comparável.