Página de modelo: Gemma
Recursos e documentação técnica:
Termos de Uso: Termos
Autores: Google
Informações do modelo
Descrição resumida e definição breve de entradas e saídas.
Descrição
O Gemma é uma família de modelos abertos, leves e de última geração do Google, criados com a mesma pesquisa e tecnologia usadas no Gemini. Eles são modelos de linguagem grandes de texto para texto, somente decodificadores, disponíveis em inglês, com pesos abertos para variantes pré-treinadas e variantes ajustadas por instrução. Os modelos Gemma são adequados para várias tarefas de geração de texto, incluindo resposta a perguntas, resumo e raciocínio. Seu tamanho relativamente pequeno permite que eles sejam implantados em ambientes com recursos limitados, como um laptop, computador ou sua própria infraestrutura em nuvem, democratizando o acesso a modelos de IA de última geração e ajudando a promover a inovação para todos.
Entradas e saídas
- Entrada:string de texto, como uma pergunta, um comando ou um documento a ser resumido.
- Saída:texto gerado em inglês em resposta à entrada, como uma resposta a uma pergunta ou um resumo de um documento.
Citação
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
Dados do modelo
Dados usados para treinamento de modelo e como os dados foram processados.
Conjunto de dados de treinamento
Esses modelos foram treinados em um conjunto de dados de texto que inclui uma ampla variedade de fontes. O modelo 27B foi treinado com 13 trilhões de tokens, e o 9B com 8 trilhões de tokens. Estes são os principais componentes:
- Documentos da Web: uma coleção diversificada de textos da Web garante que o modelo seja exposto a uma ampla gama de estilos linguísticos, tópicos e vocabulário. Principalmente conteúdo em inglês.
- Código: a exposição do modelo ao código ajuda o modelo a aprender a sintaxe e os padrões das linguagens de programação, o que melhora a capacidade de gerar código ou entender questões relacionadas a ele.
- Matemática: o treinamento com textos matemáticos ajuda o modelo a aprender raciocínio lógico, representação simbólica e lidar com consultas matemáticas.
A combinação dessas diversas fontes de dados é crucial para treinar um modelo de linguagem poderoso que possa lidar com uma ampla variedade de tarefas e formatos de texto diferentes.
Pré-processamento de dados
Estes são os principais métodos de limpeza e filtragem de dados aplicados aos dados de treinamento:
- Filtragem de material de abuso sexual infantil: a filtragem rigorosa de material de abuso sexual infantil foi aplicada em várias etapas no processo de preparação de dados para garantir a exclusão de conteúdo nocivo e ilegal.
- Filtragem de dados confidenciais: como parte da segurança e confiabilidade dos modelos pré-treinados do Gemma, foram usadas técnicas automatizadas para filtrar determinadas informações pessoais e outros dados confidenciais dos conjuntos de treinamento.
- Métodos adicionais: filtragem com base na qualidade e segurança do conteúdo, de acordo com nossas políticas.
Informações de implementação
Detalhes sobre os componentes internos do modelo.
Hardware
O Gemma foi treinado com a geração mais recente do hardware de Unidade de Processamento de Tensor (TPU) (TPUv5p).
O treinamento de modelos de linguagem grandes requer uma capacidade computacional significativa. As TPUs, projetadas especificamente para operações de matriz comuns de machine learning, oferecem várias vantagens neste domínio:
- Desempenho: as TPUs são projetadas especificamente para lidar com as grandes computações envolvidas no treinamento de LLMs. Elas podem acelerar o treinamento consideravelmente em comparação com as CPUs.
- Memória: as TPUs geralmente vêm com grandes quantidades de memória de alta largura de banda, o que permite o processamento de modelos grandes e tamanhos de lote durante o treinamento. Isso pode levar a uma melhor qualidade do modelo.
- Escalonabilidade: os pods de TPU (grandes clusters de TPUs) fornecem uma solução escalonável para lidar com a complexidade crescente de modelos de fundação grandes. É possível distribuir o treinamento entre vários dispositivos de TPU para tornar o processamento mais rápido e eficiente.
- Custo-benefício: em muitos cenários, as TPUs fornecem uma solução mais econômica para o treinamento de grandes modelos em comparação com a infraestrutura baseada em CPU, especialmente ao considerar o tempo e os recursos economizados devido ao treinamento mais rápido.
- Essas vantagens estão alinhadas aos compromissos do Google de operar de maneira sustentável.
Software
O treinamento foi feito usando o JAX e os caminhos do ML.
O JAX permite que os pesquisadores aproveitem a geração mais recente de hardware, incluindo TPUs, para um treinamento mais rápido e eficiente de modelos grandes.
O ML Pathways é a iniciativa mais recente do Google para criar sistemas com inteligência artificial capazes de generalizar várias tarefas. Isso é especialmente adequado para modelos de fundação, incluindo modelos de linguagem grandes como esses.
Juntos, o JAX e os caminhos de ML são usados conforme descrito no artigo sobre a família de modelos Gemini. "O modelo de programação de "controlador único" de Jax e Pathways permite que um único processo de Python orquestre toda a execução de treinamento, simplificando drasticamente o fluxo de trabalho de desenvolvimento".
Avaliação
Métricas e resultados de avaliação de modelos.
Resultados do comparativo de mercado
Esses modelos foram avaliados em relação a uma grande coleção de diferentes conjuntos de dados e métricas para abranger diferentes aspectos da geração de texto:
Benchmark | Métrica | Gemma PT 9B | Gemma PT 27B |
---|---|---|---|
MMLU (link em inglês) | 5 tiros, top-1 | 71,3 | 75,2 |
HellaSwag | 10 fotos | 81,9 | 86,4 |
PIQA (em inglês) | 0 tacada | 81,7 | 83,2 |
SocialIQA | 0 tacada | 53,4 | 53,7 |
BoolQ | 0 tacada | 84,2 | 84,8 |
WinoGrande | pontuação parcial | 80,6 | 83,7 |
ARC-e (link em inglês) | 0 tacada | 88,0 | 88,6 |
ARC-c (link em inglês) | 25 tiros | 68,4 | 71,4 |
TriviaQA | 5 tiros | 76,6 | 83,7 |
Perguntas naturais | 5 tiros | 29,2 | 34,5 |
HumanEval | passa@1 | 40,2 | 51,8 |
MBPP (link em inglês) | 3 fotos | 52,4 | 62,6 |
GSM8K (link em inglês) | 5-shot, maj@1 | 68,6 | 74,0 |
MATH | 4 fotos | 36,6 | 42,3 |
AGIEval | 3 a 5 fotos | 52,8 | 55.1 |
BIG-Bench (link em inglês) | 3 shots, camarim | 68.2 | 74,9 |
Ética e Segurança
Abordagem e resultados da avaliação de ética e segurança.
Abordagem de avaliação
Nossos métodos de avaliação incluem avaliações estruturadas e testes internos de red teaming das políticas de conteúdo relevantes. A equipe vermelha era conduzida por várias equipes, cada uma com metas e métricas de avaliação humanas. Esses modelos foram avaliados em relação a várias categorias diferentes relevantes para ética e segurança, incluindo:
- Segurança de conteúdo de conversão de texto em texto: avaliação humana de solicitações que abrangem políticas de segurança, incluindo abuso e exploração sexual infantil, assédio, violência, sangue e discurso de ódio.
- Prejuízos representacionais de texto para texto: faça comparativos de mercado com conjuntos de dados acadêmicos relevantes, como WinoBias e conjunto de dados para churrasco.
- Memorização: avaliação automatizada da memorização de dados de treinamento, incluindo o risco de exposição de informações de identificação pessoal.
- Danos em grande escala: testes para "capacidades perigosas", como riscos químicos, biológicos, radiológicos e nucleares (CBRN, na sigla em inglês).
Resultados da avaliação
Os resultados das avaliações de ética e segurança estão dentro dos limites aceitáveis para atender às políticas internas de categorias como segurança infantil, segurança de conteúdo, danos à representatividade, memorização e danos em grande escala. Além de avaliações internas robustas, os resultados de comparativos de segurança conhecidos, como churrasco, BOLD, Winogender, Winobias, RealToxicity e TruthfulQA são mostrados aqui.
Gemma 2.0
Benchmark | Métrica | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|
RealToxicity | Média | 8,25 | 8,84 |
Crows-Pairs | top-1 | 37,47 | 36,67 |
Churrasco Ambig | 1-shot, top-1 | 88,58 | 85,99 |
Churrasco | top-1 | 82,67 | 86,94 |
Winogender (link em inglês) | top-1 | 79,17 | 77,22 |
TruthfulQA | 50,27 | 51,60 | |
Winobias 1_2 (link em inglês) | 78,09 | 81,94 | |
Winobias 2_2 (link em inglês) | 95,32 | 97,22 | |
Toxigenação | 39,30 | 38,42 |
Uso e limitações
Esses modelos têm certas limitações que os usuários precisam estar cientes.
Uso pretendido
Os modelos de linguagem grandes (LLMs) abertos têm uma ampla gama de aplicativos em vários setores e domínios. A lista de possíveis usos a seguir não é abrangente. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores do modelo consideraram como parte do treinamento e desenvolvimento do modelo.
- Criação e comunicação de conteúdo
- Geração de texto: esses modelos podem ser usados para gerar formatos de texto criativos, como poemas, scripts, códigos, textos de marketing e rascunhos de e-mails.
- Chatbots e IA de conversação: interfaces de conversação avançadas para atendimento ao cliente, assistentes virtuais ou aplicativos interativos.
- Resumo de texto: gere resumos concisos de um corpus de texto, artigos de pesquisa ou relatórios.
- Pesquisa e educação
- Pesquisa de processamento de linguagem natural (PLN): esses modelos podem servir como base para que os pesquisadores testem técnicas de PLN, desenvolvam algoritmos e contribuam para o avanço dessa área.
- Ferramentas de aprendizado de idiomas: oferecem suporte a experiências interativas de aprendizado de idiomas, auxiliando na correção gramatical ou na prática de escrita.
- Exploração de conhecimento: ajude os pesquisadores a explorar grandes corpos de texto gerando resumos ou respondendo a perguntas sobre tópicos específicos.
Limitações
- Dados de treinamento
- A qualidade e a diversidade dos dados de treinamento influenciam significativamente os recursos do modelo. Vieses ou lacunas nos dados de treinamento podem resultar em limitações nas respostas do modelo.
- O escopo do conjunto de dados de treinamento determina as áreas temáticas que o modelo pode abordar de maneira eficaz.
- Contexto e complexidade da tarefa
- Os LLMs são melhores em tarefas que podem ser estruturadas com comandos e instruções claros. Tarefas abertas ou altamente complexas podem ser desafiadoras.
- O desempenho de um modelo pode ser influenciado pela quantidade de contexto fornecida. Um contexto mais longo geralmente leva a melhores saídas até um determinado ponto.
- Ambiguidade e nuances da linguagem
- A linguagem natural é inerentemente complexa. Os LLMs podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
- Precisão dos fatos
- Os LLMs geram respostas com base nas informações aprendidas nos conjuntos de dados de treinamento, mas não são bases de conhecimento. Podem gerar declarações factuais incorretas ou desatualizadas.
- Comum
- Os LLMs dependem de padrões estatísticos na linguagem. Eles podem não conseguir aplicar o raciocínio do bom senso em determinadas situações.
Considerações éticas e riscos
O desenvolvimento de modelos de linguagem grandes (LLMs) desperta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:
- Viés e imparcialidade
- LLMs treinados com dados de texto reais e em grande escala podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos passaram por um escrutínio cuidadoso, pelo pré-processamento dos dados de entrada descrito e pelas avaliações posteriores apresentadas neste card.
- Desinformação e uso indevido
- Os LLMs podem ser usados indevidamente para gerar texto falso, enganoso ou nocivo.
- São fornecidas diretrizes para uso responsável com o modelo. Consulte o Kit de ferramentas de IA generativa responsável.
- Transparência e responsabilidade:
- Neste card de modelo, resumimos os detalhes sobre a arquitetura, as capacidades, as limitações e os processos de avaliação dos modelos.
- Um modelo aberto desenvolvido de maneira responsável oferece a oportunidade de compartilhar inovações, tornando a tecnologia LLM acessível para desenvolvedores e pesquisadores em todo o ecossistema de IA.
Riscos identificados e mitigações:
- Perpetuação de vieses: é recomendável realizar monitoramento contínuo (usando métricas de avaliação, revisão humana) e a exploração de técnicas de eliminação de vieses durante o treinamento do modelo, ajuste de detalhes e outros casos de uso.
- Geração de conteúdo nocivo: mecanismos e diretrizes para a segurança do conteúdo são essenciais. Os desenvolvedores são incentivados a ter cautela e implementar salvaguardas de segurança de conteúdo adequadas com base nas políticas de produtos específicas e nos casos de uso de aplicativos deles.
- Uso indevido para fins maliciosos: limitações técnicas e educação de desenvolvedores e usuários finais podem ajudar a mitigar aplicativos maliciosos de LLMs. Fornecemos recursos educacionais e mecanismos de denúncia para que os usuários sinalizem uso indevido. Os usos proibidos dos modelos do Gemma estão descritos na Política de uso proibido do Gemma.
- Violações de privacidade: os modelos foram treinados com dados filtrados para remoção de PII (informações de identificação pessoal). Os desenvolvedores são incentivados a aderir aos regulamentações de privacidade com técnicas de preservação da privacidade.
Vantagens
No momento do lançamento, essa família de modelos oferece implementações de modelos de linguagem grandes abertos e de alto desempenho projetadas do zero para o desenvolvimento de IA responsável, em comparação com modelos de tamanho semelhante.
Usando as métricas de avaliação de comparativo de mercado descritas neste documento, esses modelos oferecem desempenho superior a outras alternativas de modelos abertos de tamanho comparável.