Card de modelo Gemma 2

Página de modelo: Gemma

Recursos e documentação técnica:

Termos de Uso: Termos

Autores: Google

Informações do modelo

Descrição resumida e definição breve de entradas e saídas.

Descrição

O Gemma é uma família de modelos abertos, leves e de última geração do Google, criados com a mesma pesquisa e tecnologia usada para criar os modelos do Gemini. Eles são modelos de linguagem grande para texto, somente decodificadores, disponíveis em inglês, com pesos abertos para variantes pré-treinadas e ajustadas por instruções. Os modelos Gemma são adequados para várias tarefas de geração de texto, incluindo a resposta a perguntas, o resumo e o raciocínio. Seu tamanho relativamente pequeno possibilita implantá-los em ambientes com recursos limitados, como um laptop, desktop ou sua própria infraestrutura em nuvem, democratizando o acesso a modelos de IA de última geração e ajudando a promover a inovação para todos.

Entradas e saídas

  • Entrada:string de texto, como uma pergunta, um comando ou um documento a ser resumido.
  • Saída: texto gerado em inglês em resposta à entrada, como como uma resposta a uma pergunta ou o resumo de um documento.

Citação

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Dados do modelo

Dados usados para treinamento de modelo e como os dados foram processados.

Conjunto de dados de treinamento

Esses modelos foram treinados em um conjunto de dados de texto que inclui uma ampla variedade de fontes. O modelo 27B foi treinado com 13 trilhões de tokens, o modelo 9B foi foi treinado com 8 trilhões de tokens, e o modelo 2B foi treinado com 2 trilhões de tokens. Estes são os principais componentes:

  • Documentos da Web: uma coleção diversificada de textos da Web garante que o modelo seja exposto uma ampla gama de estilos, tópicos e vocabulário linguísticos. Principalmente Conteúdo em inglês.
  • Codificar: expor o modelo ao código o ajuda a aprender a sintaxe e os padrões de linguagens de programação, o que melhora sua capacidade de gerar código ou compreender questões relacionadas ao código.
  • Matemática: treinar com um texto matemático ajuda o modelo a aprender lógica raciocínio, representação simbólica e lidar com consultas matemáticas.

A combinação dessas diversas fontes de dados é crucial para treinar um analista de linguagem natural capaz de lidar com uma ampla variedade de tarefas e textos formatos.

Pré-processamento de dados

Estes são os principais métodos de limpeza e filtragem de dados aplicados ao treinamento dados:

  • Filtragem de material de abuso sexual infantil: a filtragem rigorosa de material de abuso sexual infantil era aplicadas em vários estágios do processo de preparação de dados para garantir exclusão de conteúdo nocivo e ilegal.
  • Filtragem de dados sensíveis: como parte do processo de tornar os modelos pré-treinados do Gemma seguros e automatizadas e confiáveis foram usadas para filtrar determinados e outros dados sensíveis dos conjuntos de treinamento.
  • Métodos adicionais: filtragem com base na qualidade e segurança do conteúdo de acordo com nossas políticas.

Informações de implementação

Detalhes sobre os componentes internos do modelo.

Hardware

O Gemma foi treinado usando a geração mais recente de Hardware de Unidade de Processamento de Tensor (TPU) (TPUv5p).

O treinamento de modelos de linguagem grandes requer uma capacidade computacional significativa. TPUs projetada especificamente para operações matriciais comuns de machine learning, oferece diversas vantagens nesse domínio:

  • Desempenho: as TPUs são projetadas especificamente para lidar com grandes cálculos de treinar LLMs. Eles podem acelerar o treinamento consideravelmente em comparação com e CPUs.
  • Memória: TPUs costumam vir com grandes quantidades de memória de alta largura de banda, permitindo para lidar com modelos grandes e tamanhos de lote durante o treinamento. Isso pode melhorar a qualidade dos modelos.
  • Escalonabilidade: os pods de TPU (grandes clusters de TPUs) oferecem uma solução escalonável para lidando com a complexidade cada vez maior de modelos de fundação grandes. É possível distribuir treinamento em vários dispositivos TPU para tornar o processamento mais rápido e eficiente.
  • Relação custo-benefício: em muitos cenários, as TPUs podem fornecer um sistema mais para treinar modelos grandes em comparação com infraestruturas baseadas em CPU, especialmente ao considerar o tempo e os recursos economizados devido à treinamento.
  • Essas vantagens estão alinhadas com Compromissos do Google de operar de maneira sustentável.

Software

O treinamento foi feito usando o JAX e os caminhos do ML.

Com o JAX, os pesquisadores podem aproveitar a geração mais recente de hardware, incluindo TPUs, para um treinamento mais rápido e eficiente de modelos grandes.

O ML Pathways é a iniciativa mais recente do Google para criar sistemas com inteligência artificial que pode ser generalizada em várias tarefas. Isso é especialmente adequado para modelos de fundação, incluindo modelos de linguagem grandes, como estes.

Juntos, o JAX e os caminhos de ML são usados conforme descrito nas artigo sobre a família de modelos Gemini; "o single controlador de programação do Jax e Pathways permite um único Python para orquestrar toda a execução de treinamento, simplificando drasticamente de desenvolvimento de software".

Avaliação

Métricas e resultados de avaliação de modelos.

Resultados do comparativo de mercado

Esses modelos foram avaliados em relação a uma grande coleção de diferentes conjuntos de dados e métricas para abranger diferentes aspectos da geração de textos:

Benchmark Métrica Gemma 2 pt 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5 tiros, top-1 51,3 71,3 75,2
HellaSwag 10 tiros 73,0 81,9 86,4
PIQA 0 tacada 77,8 81,7 83,2
SocialIQA 0 tacada 51,9 53,4 53,7
BoolQ 0 tacada 72,5 84,2 84,8
WinoGrande pontuação parcial 70,9 80,6 83,7
ARC-e 0 tacada 80,1 88,0 88,6
ARC-c 25 tiros 55,4 68,4 71,4
TriviaQA 5 tiros 59,4 76,6 83,7
Perguntas naturais 5 tiros 16,7 29,2 34,5
HumanEval passa@1 17,7 40,2 51,8
MBPP 3 fotos 29,6 52,4 62,6
GSM8K (link em inglês) 5-shot, maj@1 23,9 68,6 74,0
MATH 4 fotos 15 36,6 42,3
AGIEval 3 a 5 fotos 30,6 52,8 55.1
DROP 3-shot, F1 52,0 69,4 72,2
BIG-Bench (link em inglês) 3 shots, camarim 41,9 68.2 74,9

Ética e Segurança

Abordagem e resultados da avaliação de ética e segurança.

Abordagem de avaliação

Nossos métodos de avaliação incluem avaliações estruturadas e equipe vermelha interna testes de políticas de conteúdo relevantes. A equipe vermelha foi conduzida por vários equipes diferentes, cada uma com metas e métricas de avaliação humana diferentes. Esses modelos foram avaliados em relação a várias categorias diferentes ética e segurança, incluindo:

  • Segurança de conteúdo de texto para texto: avaliação humana em comandos que cobrem a segurança políticas, incluindo abuso e exploração sexual infantil, assédio e violência. imagens sangrentas e discurso de ódio.
  • Danos representacionais de texto para texto: comparação com trabalhos acadêmicos relevantes conjuntos de dados, como WinoBias e BBQ Dataset.
  • Memorização: avaliação automatizada da memorização dos dados de treinamento, incluindo o risco de exposição de informações de identificação pessoal.
  • Danos em grande escala: testes para "capacidades perigosas", como produtos químicos, riscos biológicos, radiológicos e nucleares (CBRN).

Resultados da avaliação

Os resultados das avaliações de ética e segurança estão dentro dos limites aceitáveis atender a políticas internas para categorias como segurança do conteúdo, danos à representação, memorização, danos em grande escala. Além de avaliações internas robustas, os resultados de práticas de segurança comparativos de mercado como churrasco, BOLD, Winogender, Winobias, RealToxicity e TruthfulQA são mostradas aqui.

Gemma 2.0

Benchmark Métrica Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity média 8,16 8,25 8,84
CrowS-Pairs top-1 37,67 37,47 36,67
Churrasco Ambig 1-shot, top-1 83,20 88,58 85,99
Churrasco top-1 69,31 82,67 86,94
Winogender (link em inglês) top-1 52,91 79,17 77,22
TruthfulQA 43,72 50,27 51,60
Winobias 1_2 (link em inglês) 59,28 78,09 81,94
Winobias 2_2 (link em inglês) 88,57 95,32 97,22
Toxigen 48,32 39,30 38,42

Avaliações de capacidade perigosa

Abordagem de avaliação

Avaliamos uma série de capacidades perigosas:

  • Segurança cibernética ofensiva:para avaliar o potencial de uso indevido do modelo em em contextos de segurança cibernética, utilizamos Plataformas Capture-the-Flag (CTF), como InterCode-CTF e Hack the Box, assim como desafios CTF desenvolvidos internamente. Essas avaliações medem capacidade do modelo de explorar vulnerabilidades e ter acesso não autorizado ambientes simulados.
  • Autoproliferação:avaliamos a capacidade do modelo autoproliferação ao projetar tarefas que envolvem aquisição de recursos, programação execução e interação com sistemas remotos. Essas avaliações avaliam a capacidade do modelo de se replicar e se espalhar de forma independente.
  • Persuasão:avaliar a capacidade de persuasão do modelo; enganação, conduzimos estudos de persuasão humana. Esses estudos envolveram cenários que medem a capacidade do modelo de construir relacionamento, influência ou crenças e desencadear ações específicas de participantes humanos.

Resultados da avaliação

Todas as avaliações são descritas em detalhes em Avaliação dos modelos Frontier para recursos perigosos e, em resumo, Relatório técnico do Gemma 2 (em inglês).

Avaliação Capacidade Gemma 2 IT 27B
InterCode-CTF Segurança cibernética ofensiva Desafios 34/76
CTF interno Segurança cibernética ofensiva Desafios de 1/13
Hack the Box Segurança cibernética ofensiva Desafios de 0/13
Alerta antecipado de autoproliferação Autoproliferação Desafios de 1/10
Charme ofensivo Persuasão Porcentagem de participantes que concordaram: 81% interessante, 75% falariam novamente, 80% fizeram conexão pessoal
Clique em Links Persuasão 34% dos participantes
Encontrar informações Persuasão 9% dos participantes
Executar código Persuasão 11% dos participantes
Troca de dinheiro Persuasão £ 3,72 significa doação
Teia de mentiras Persuasão 18% de mudança média em direção à crença correta, 1% de mudança média em direção à crença incorreta

Uso e limitações

Esses modelos têm certas limitações que os usuários precisam estar cientes.

Uso pretendido

Os modelos de linguagem grandes (LLMs) abertos têm uma ampla variedade de em vários setores e domínios. A lista de possíveis usos a seguir não está abrangente. O objetivo dessa lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram treinamento e desenvolvimento.

  • Criação e comunicação de conteúdo
    • Geração de texto: esses modelos podem ser usados para gerar formatos de texto de criativos como poemas, scripts, códigos, textos de marketing e rascunhos de e-mails.
    • Chatbots e IA de conversação: potencialize as interfaces de conversa para o cliente assistentes virtuais ou aplicativos interativos.
    • Resumo de texto: gere resumos concisos de um corpus de texto, pesquisa documentos ou relatórios.
  • Pesquisa e educação
    • Pesquisa de processamento de linguagem natural (PLN): esses modelos podem servir como base para que pesquisadores experimentem técnicas de PLN, desenvolvam algoritmos e contribuem para o avanço da área.
    • Ferramentas de aprendizado de idiomas: oferecem suporte a experiências interativas de aprendizado de idiomas, auxiliar na correção gramatical ou prática de escrita.
    • Exploração do conhecimento: ajude pesquisadores na exploração de grandes corpos de texto gerando resumos ou respondendo a perguntas sobre tópicos específicos.

Limitações

  • Dados de treinamento
    • A qualidade e a diversidade dos dados de treinamento influenciam significativamente os recursos do modelo. Vieses ou lacunas nos dados de treinamento podem levar a limitações nas respostas do modelo.
    • O escopo do conjunto de dados de treinamento determina as áreas temáticas que o modelo pode e lidar com isso de forma eficaz.
  • Contexto e complexidade das tarefas
    • Os LLMs são melhores em tarefas que podem ser estruturadas com comandos claros e instruções. Tarefas abertas ou altamente complexas podem ser desafiadoras.
    • O desempenho de um modelo pode ser influenciado pela quantidade de contexto fornecida (um contexto mais longo geralmente leva a melhores saídas até um certo ponto).
  • Ambiguidade e nuance da linguagem
    • A linguagem natural é inerentemente complexa. pode ser difícil entender LLMs sutis nuances, sarcasmo ou linguagem figurada.
  • Acurácia dos fatos
    • Os LLMs geram respostas com base nas informações que aprenderam com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Eles podem gerar declarações factuais incorretas ou desatualizadas.
  • Comum
    • Os LLMs dependem de padrões estatísticos na linguagem. Eles podem não ter a capacidade aplicar o raciocínio de bom senso em determinadas situações.

Considerações éticas e riscos

O desenvolvimento de modelos de linguagem grandes (LLMs) desperta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:

  • Viés e imparcialidade
    • LLMs treinados com dados de texto do mundo real em grande escala podem refletir os vieses incorporados ao material de treinamento. Esses modelos foram submetidos a cuidados escrutínio, pré-processamento de dados de entrada descrito e avaliações posteriores informadas neste card.
  • Desinformação e uso indevido
  • Transparência e responsabilidade:
    • Este card de modelo resume os detalhes da arquitetura capacidades, limitações e processos de avaliação.
    • Um modelo aberto e desenvolvido de forma responsável oferece a oportunidade de compartilhar inovação tornando a tecnologia LLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigações:

  • Perpetuação de vieses: é incentivado a realização de monitoramento contínuo (usando métricas de avaliação, revisão humana) e a análise de desigualdade técnicas durante o treinamento de modelos, o ajuste fino e outros casos de uso.
  • Geração de conteúdo nocivo: mecanismos e diretrizes para segurança de conteúdo são essenciais. Os desenvolvedores são incentivados a ter cautela e implementar salvaguardas previstas de segurança de conteúdo com base nas políticas de produtos específicas e casos de uso de aplicativos.
  • Uso indevido para fins maliciosos: limitações técnicas e o a educação do usuário final pode ajudar a mitigar aplicativos maliciosos de LLMs. Existem recursos educacionais e mecanismos de denúncia para os usuários sinalizarem uso indevido fornecidas. Os usos proibidos dos modelos Gemma estão descritos na Política de uso proibido do Gemma.
  • Violações de privacidade: os modelos foram treinados com dados filtrados para remoção de PII. (Informações de Identificação Pessoal). Os desenvolvedores são incentivados a seguir regulamentações de privacidade com técnicas que preservam a privacidade.

Vantagens

No momento do lançamento, essa família de modelos oferece alto desempenho grandes implementações de modelos de linguagem projetadas do zero para desenvolvimento de IA em comparação com modelos de tamanhos semelhantes.

Usando as métricas de avaliação de comparativo de mercado descritas neste documento, esses modelos mostraram oferecer desempenho superior a outros modelos abertos de tamanho comparável alternativas.