Card de modelo Gemma 2

Página do modelo: Gemma

Recursos e documentação técnica:

Termos de Uso: Termos

Autores: Google

Informações do modelo

Descrição resumida e definição breve de entradas e saídas.

Descrição

O Gemma é uma família de modelos abertos leves e de última geração do Google, criados com a mesma pesquisa e tecnologia usadas para criar os modelos do Gemini. Eles são modelos de linguagem grandes de texto para texto, somente decodificador, disponíveis em inglês, com pesos abertos para variantes pré-treinadas e ajustadas por instrução. Os modelos Gemma são adequados para várias tarefas de geração de texto, incluindo resposta a perguntas, resumo e raciocínio. O tamanho relativamente pequeno permite a implantação em ambientes com recursos limitados, como um laptop, um computador ou sua própria infraestrutura de nuvem, democratizando o acesso a modelos de IA de última geração e ajudando a promover a inovação para todos.

Entradas e saídas

  • Entrada:string de texto, como uma pergunta, um comando ou um documento a ser resumido.
  • Saída:texto gerado em inglês em resposta à entrada, como uma resposta a uma pergunta ou um resumo de um documento.

Citação

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Dados do modelo

Dados usados para o treinamento do modelo e como eles foram processados.

Conjunto de dados de treinamento

Esses modelos foram treinados em um conjunto de dados de texto que inclui uma grande variedade de fontes. O modelo de 27 bilhões foi treinado com 13 trilhões de tokens, o modelo de 9 bilhões foi treinado com 8 trilhões de tokens e o modelo de 2 bilhões foi treinado com 2 trilhões de tokens. Estes são os principais componentes:

  • Documentos da Web: uma coleção diversificada de textos da Web garante que o modelo seja exposto a uma ampla variedade de estilos linguísticos, tópicos e vocabulário. Conteúdo principalmente em inglês.
  • Código: expor o modelo ao código ajuda a aprender a sintaxe e os padrões de linguagens de programação, o que melhora a capacidade de gerar código ou entender perguntas relacionadas a códigos.
  • Matemática: o treinamento em texto matemático ajuda o modelo a aprender raciocínio lógico, representação simbólica e a responder a consultas matemáticas.

A combinação dessas diversas fontes de dados é crucial para treinar um modelo de linguagem poderoso que possa lidar com uma ampla variedade de tarefas e formatos de texto.

Pré-processamento de dados

Confira os principais métodos de limpeza e filtragem de dados aplicados aos dados de treinamento:

  • Filtragem de CSAM: a filtragem rigorosa de material de abuso sexual infantil (CSAM, na sigla em inglês) foi aplicada em várias etapas do processo de preparação de dados para garantir a exclusão de conteúdo nocivo e ilegal.
  • Filtragem de dados sensíveis: como parte do processo de tornar os modelos pré-treinados do Gemma seguros e confiáveis, técnicas automatizadas foram usadas para filtrar determinadas informações pessoais e outros dados sensíveis dos conjuntos de treinamento.
  • Outros métodos: filtrar com base na qualidade e na segurança do conteúdo de acordo com nossas políticas.

Informações de implementação

Detalhes sobre as partes internas do modelo.

Hardware

O Gemma foi treinado usando a geração mais recente de hardware Unidade de Processamento de Tensor (TPU) (TPUv5p).

O treinamento de modelos de linguagem grandes exige uma capacidade computacional significativa. As TPUs, projetadas especificamente para operações de matriz comuns em aprendizado de máquina, oferecem várias vantagens neste domínio:

  • Desempenho: as TPUs são projetadas especificamente para lidar com os cálculos massivos envolvidos no treinamento de LLMs. Elas podem acelerar o treinamento consideravelmente em comparação com CPUs.
  • Memória: as TPUs geralmente vêm com grandes quantidades de memória de alta largura de banda, permitindo o processamento de modelos e tamanhos de lote grandes durante o treinamento. Isso pode resultar em uma melhor qualidade do modelo.
  • Escalabilidade: os pods de TPU (grandes clusters de TPUs) oferecem uma solução escalonável para lidar com a complexidade crescente de grandes modelos de base. É possível distribuir o treinamento em vários dispositivos TPU para um processamento mais rápido e eficiente.
  • Relação custo-benefício: em muitos cenários, as TPUs podem oferecer uma solução mais econômica para o treinamento de modelos grandes em comparação com a infraestrutura baseada em CPU, principalmente quando se considera o tempo e os recursos economizados devido ao treinamento mais rápido.
  • Essas vantagens estão alinhadas aos compromissos do Google de operar de forma sustentável.

Software

O treinamento foi feito usando o JAX e o ML Pathways.

O JAX permite que os pesquisadores aproveitem a geração mais recente de hardware, incluindo TPUs, para um treinamento mais rápido e eficiente de modelos grandes.

O ML Pathways é o mais recente esforço do Google para criar sistemas de inteligência artificial capazes de generalizar várias tarefas. Isso é especialmente adequado para modelos de base, incluindo modelos de linguagem grandes, como esses.

Juntos, o JAX e o ML Pathways são usados conforme descrito no artigo sobre a família de modelos Gemini: "o modelo de programação "controlador único" do Jax e do Pathways permite que um único processo Python orquestre toda a execução de treinamento, simplificando drasticamente o fluxo de desenvolvimento".

Avaliação

Métricas e resultados de avaliação do modelo.

Resultados da comparação

Esses modelos foram avaliados em relação a uma grande coleção de diferentes conjuntos de dados e métricas para cobrir diferentes aspectos da geração de texto:

Benchmark Métrica Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5-shot, top-1 51.3 71,3 75,2
HellaSwag 10 fotos 73,0 81,9 86,4
PIQA Zero-shot 77,8 81,7 83,2
SocialIQA Zero-shot 51,9 53,4 53,7
BoolQ Zero-shot 72,5 84,2 84,8
WinoGrande pontuação parcial 70,9 80,6 83,7
ARC-e Zero-shot 80,1 88,0 88,6
ARC-c 25 fotos 55.4 68.4 71,4
TriviaQA 5 fotos 59,4 76,6 83,7
Perguntas naturais 5 fotos 16.7 29,2 34,5
HumanEval pass@1 17,7 40,2 51,8
MBPP 3 fotos 29,6 52,4 62,6
GSM8K 5-shot, maj@1 23,9 68,6 74,0
MATH 4 fotos 15 36,6 42,3
AGIEval 3 a 5 tiros 30,6 52,8 55.1
DROP 3 fotos, F1 52,0 69,4 72,2
BIG-Bench (link em inglês) 3-shot, CoT 41,9 68.2 74,9

Ética e segurança

Abordagem e resultados da avaliação de ética e segurança.

Abordagem de avaliação

Nossos métodos de avaliação incluem avaliações estruturadas e testes internos de equipe vermelha de políticas de conteúdo relevantes. O red-teaming foi conduzido por várias equipes diferentes, cada uma com objetivos e métricas de avaliação humana diferentes. Esses modelos foram avaliados em relação a várias categorias diferentes relevantes para ética e segurança, incluindo:

  • Segurança de conteúdo de texto para texto: avaliação humana de instruções que abrangem políticas de segurança, incluindo abuso e exploração sexual infantil, assédio, violência e imagens sangrentas, além de discurso de ódio.
  • Danos de representação de texto para texto: comparação com conjuntos de dados acadêmicos relevantes, como WinoBias e BBQ Dataset.
  • Memorização: avaliação automatizada da memorização de dados de treinamento, incluindo o risco de exposição de informações de identificação pessoal.
  • Dano em grande escala: testes de "recursos perigosos", como riscos químicos, biológicos, radiológicos e nucleares (CBRN, na sigla em inglês).

Resultados da avaliação

Os resultados das avaliações de ética e segurança estão dentro dos limites aceitáveis para atender às políticas internas de categorias como segurança infantil, segurança de conteúdo, danos de representação, memorização e danos em grande escala. Além de avaliações internas robustas, os resultados de comparativos de mercado de segurança conhecidos, como BBQ, BOLD, Winogender, Winobias, RealToxicity e TruthfulQA, são mostrados aqui.

Gemma 2.0

Benchmark Métrica Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity média 8.16 8,25 8,84
CrowS-Pairs (em inglês) top-1 37,67 37,47 36,67
BBQ Ambig 1 foto, top-1 83,20 88,58 85,99
BBQ Disambig top-1 69,31 82,67 86,94
Winogender (em inglês) top-1 52,91 79,17 77,22
TruthfulQA 43,72 50,27 51,60
Winobias 1_2 59,28 78,09 81,94
Winobias 2_2 88,57 95,32 97,22
Toxigen 48,32 39,30 38,42

Avaliações de habilidades perigosas

Abordagem de avaliação

Avaliamos vários recursos perigosos:

  • Cibersegurança ofensiva:para avaliar o potencial de uso indevido do modelo em contextos de cibersegurança, utilizamos plataformas de captura de bandeira (CTF, na sigla em inglês) disponíveis publicamente, como InterCode-CTF e Hack the Box, além de desafios de CTF desenvolvidos internamente. Essas avaliações medem a capacidade do modelo de explorar vulnerabilidades e conseguir acesso não autorizado em ambientes simulados.
  • Autoproliferação:avaliamos a capacidade do modelo de autoproliferação ao projetar tarefas que envolvem aquisição de recursos, execução de código e interação com sistemas remotos. Essas avaliações avaliam a capacidade do modelo de replicar e se espalhar de forma independente.
  • Persuasão:para avaliar a capacidade do modelo de persuasão e engano, realizamos estudos de persuasão humana. Esses estudos envolveram cenários que medem a capacidade do modelo de criar rapport, influenciar crenças e extrair ações específicas dos participantes humanos.

Resultados da avaliação

Todas as avaliações são descritas em detalhes em Avaliação de modelos de fronteira para recursos perigosos e resumidas no Relatório técnico do Gemma 2.

Avaliação Capacidade Gemma 2 IT 27B
InterCode-CTF Segurança cibernética ofensiva 34/76 desafios
CTF interno Segurança cibernética ofensiva 1/13 desafios
Hack the Box Segurança cibernética ofensiva 0/13 desafios
Aviso antecipado de autoproliferação Autoproliferação 1/10 desafios
Charme ofensivo Persuasão Porcentagem de participantes que concordam: 81% interessante, 75% falariam de novo, 80% fizeram uma conexão pessoal
Clique nos links Persuasão 34% dos participantes
Encontrar informações Persuasão 9% dos participantes
Executar código Persuasão 11% dos participantes
O dinheiro fala por si Persuasão Doação média de £3,72
Web of Lies Persuasão 18% de mudança média para a crença correta, 1% de mudança média para a crença incorreta

Uso e limitações

Esses modelos têm algumas limitações que os usuários precisam conhecer.

Uso pretendido

Os modelos de linguagem grandes abertos (LLMs) têm uma ampla gama de aplicativos em vários setores e domínios. A lista de usos possíveis a seguir não é completa. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram como parte do treinamento e desenvolvimento do modelo.

  • Criação de conteúdo e comunicação
    • Geração de texto: esses modelos podem ser usados para gerar formatos de texto criativos, como poemas, roteiros, código, cópia de marketing e rascunhos de e-mail.
    • Chatbots e IA de conversação: forneça interfaces de conversação para atendimento ao cliente, assistentes virtuais ou aplicativos interativos.
    • Resumo de texto: gere resumos concisos de um corpus de texto, artigos de pesquisa ou relatórios.
  • Pesquisa e educação
    • Pesquisa de processamento de linguagem natural (PLN): esses modelos podem servir como base para os pesquisadores experimentarem técnicas de PLN, desenvolver algoritmos e contribuir para o avanço da área.
    • Ferramentas de aprendizado de idiomas: oferecem suporte a experiências interativas de aprendizado de idiomas, ajudando na correção gramatical ou oferecendo prática de escrita.
    • Análise de conhecimento: ajuda os pesquisadores a analisar grandes volumes de texto gerando resumos ou respondendo a perguntas sobre tópicos específicos.

Limitações

  • Dados de treinamento
    • A qualidade e a diversidade dos dados de treinamento influenciam significativamente as capacidades do modelo. Vieses ou lacunas nos dados de treinamento podem levar a limitações nas respostas do modelo.
    • O escopo do conjunto de dados de treinamento determina as áreas de assunto que o modelo pode processar com eficácia.
  • Contexto e complexidade da tarefa
    • Os LLMs são melhores em tarefas que podem ser enquadradas com instruções e comandos claros. Tarefas abertas ou muito complexas podem ser desafiadoras.
    • O desempenho de um modelo pode ser influenciado pela quantidade de contexto fornecida. Um contexto mais longo geralmente leva a melhores resultados, até certo ponto.
  • Ambiguidade e nuances da linguagem
    • A linguagem natural é inerentemente complexa. Os LLMs podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
  • Precisão factual
    • Os LLMs geram respostas com base nas informações que aprenderam com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Eles podem gerar declarações factuais incorretas ou desatualizadas.
  • Common Sense
    • Os LLMs dependem de padrões estatísticos na linguagem. Eles podem não ter a capacidade de aplicar o raciocínio de bom senso em determinadas situações.

Considerações e riscos éticos

O desenvolvimento de modelos de linguagem grandes (LLMs) levanta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:

  • Viés e imparcialidade
    • Os LLMs treinados com dados de texto reais em grande escala podem refletir vieses socioculturais incorporados ao material de treinamento. Esses modelos foram cuidadosamente analisados, o pré-processamento de dados de entrada foi descrito e as avaliações posteriores foram informadas neste card.
  • Desinformação e uso indevido
    • Os LLMs podem ser usados indevidamente para gerar textos falsos, enganosos ou nocivos.
    • As diretrizes são fornecidas para uso responsável com o modelo. Consulte o Toolkit para IA generativa responsável.
  • Transparência e responsabilidade:
    • Este card de modelo resume detalhes sobre a arquitetura, os recursos, as limitações e os processos de avaliação dos modelos.
    • Um modelo aberto desenvolvido de forma responsável oferece a oportunidade de compartilhar inovação, tornando a tecnologia LLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigações:

  • Perpetuação de vieses: é recomendável realizar um monitoramento contínuo (usando métricas de avaliação, revisão humana) e a exploração de técnicas de eliminação de viés durante o treinamento de modelos, ajuste fino e outros casos de uso.
  • Geração de conteúdo nocivo: mecanismos e diretrizes para a segurança do conteúdo são essenciais. Os desenvolvedores são incentivados a ter cuidado e implementar as salvaguardas de segurança de conteúdo adequadas com base nas políticas de produto específicas e nos casos de uso do aplicativo.
  • Uso indevido para fins maliciosos: limitações técnicas e treinamentos para desenvolvedores e usuários finais podem ajudar a mitigar aplicativos maliciosos de LLMs. Recursos educacionais e mecanismos de denúncia para que os usuários denunciem o uso indevido são fornecidos. Os usos proibidos dos modelos Gemma estão descritos na Política de uso proibido do Gemma.
  • Violações de privacidade: os modelos foram treinados com dados filtrados para remoção de PII (informações de identificação pessoal). Recomendamos que os desenvolvedores sigam os regulamentos de privacidade com técnicas de preservação da privacidade.

Vantagens

No momento do lançamento, essa família de modelos oferece implementações de modelos de linguagem grandes de alto desempenho e de código aberto projetadas do zero para o desenvolvimento de IA responsável em comparação com modelos de tamanho semelhante.

Usando as métricas de avaliação de comparação descritas neste documento, esses modelos foram mostrados como tendo um desempenho superior a outras alternativas de modelo aberto de tamanho semelhante.