Card de modelo do RecurrentGemma

Página de modelo:RecurrentGemma

Recursos e documentação técnica:

Termos de Uso: Termos

Autores: Google

Informações do modelo

Resumo do modelo

Descrição

O RecurrentGemma é uma família de modelos de linguagem aberta criados com base em um novo livro do Google desenvolvida no Google. Ambos Versões pré-treinadas e ajustadas às instruções estão disponíveis em inglês.

Assim como o Gemma, os modelos RecurrentGemma são adequados para diversos tipos tarefas de geração de texto, incluindo respostas a perguntas, resumo e raciocínio. Devido à sua nova arquitetura, o RecurrentGemma exige menos memória Gemma e faz inferências mais rápidas ao gerar sequências longas.

Entradas e saídas

  • Entrada:string de texto (por exemplo, uma pergunta, um comando ou um documento a ser) resumido).
  • Saída:texto gerado em inglês em resposta à entrada (por exemplo, uma resposta à pergunta, um resumo do documento).

Citação

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Dados do modelo

Conjunto de dados de treinamento e processamento de dados

O RecurrentGemma usa os mesmos dados de treinamento e processamento de dados usados pelo família de modelos Gemma. Uma descrição completa pode ser encontrada no modelo do Gemma card.

Informações de implementação

Hardware e frameworks usados durante o treinamento

Marcar como "Gostei" Gemma, O RecurrentGemma foi treinado com TPUv5e, usando JAX e ML Programas de treinamentos.

Informações da avaliação

Resultados da comparação

Abordagem de avaliação

Esses modelos foram avaliados em relação a uma grande coleção de diferentes conjuntos de dados e métricas para abranger diferentes aspectos da geração de textos:

Resultados da avaliação

Benchmark Métrica RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 tiros, top-1 38,4 60.5
HellaSwag 0 tacada 71,0 80,4
PIQA 0 tacada 78,5 81,3
SocialIQA 0 tacada 51,8 52,3
BoolQ 0 tacada 71,3 80,3
WinoGrande pontuação parcial 67,8 73,6
CommonsenseQA 7 tiros 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-c 42,3 52,0
TriviaQA 5 tiros 52,5 70,5
Perguntas naturais 5 tiros 11,5 21,7
HumanEval passa@1 21,3 31,1
MBPP 3 fotos 28,8 42,0
GSM8K (link em inglês) maj@1 13.4 42,6
MATH 4 fotos 11.0 23,8
AGIEval 23,8 39,3
BIG-Bench (link em inglês) 35,3 55,2
Na média 44,6 56,1

Ética e segurança

Avaliações de ética e segurança

Abordagem de avaliações

Nossos métodos de avaliação incluem avaliações estruturadas e equipe vermelha interna testes de políticas de conteúdo relevantes. A equipe vermelha foi conduzida por vários equipes diferentes, cada uma com metas e métricas de avaliação humana diferentes. Esses modelos foram avaliados em relação a várias categorias diferentes ética e segurança, incluindo:

  • Segurança do conteúdo de texto para texto:avaliação humana em comandos que cobrem a segurança políticas, incluindo abuso e exploração sexual infantil, assédio e violência. imagens sangrentas e discurso de ódio.
  • Dificuldades na representação de texto para texto:faça um comparativo de mercado com trabalhos acadêmicos relevantes. conjuntos de dados, como WinoBias e BBQ Dataset.
  • Memorização:avaliação automatizada da memorização dos dados de treinamento. incluindo o risco de exposição de informações de identificação pessoal.
  • Danos em grande escala:testes de "capacidades perigosas", como produtos químicos, riscos biológicos, radiológicos e nucleares (CBRN); bem como testes persuasão e fraude, segurança cibernética e replicação autônoma.

Resultados da avaliação

Os resultados das avaliações de ética e segurança estão dentro dos limites aceitáveis para reuniões internas políticas para categorias como segurança infantil, segurança do conteúdo, danos à representação, memorização e danos em grande escala. Além de avaliações internas robustas, o resultados de comparativos de mercado de segurança conhecidos, como churrasco, Winogender, WinoBias, RealToxicity e TruthfulQA são mostrados aqui.

Benchmark Métrica RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity média 9,8 7,60 10.3 8.8
BOLD 39,3 52,3 39,8 47,9
CrowS-Pairs top-1 41,1 43,4 38,7 39,5
Churrasco Ambig top-1 62,6 71,1 95,9 67,1
Churrasco top-1 58,4 50,8 78,6 78,9
Winogender (link em inglês) top-1 55.1 54,7 59,0 64,0
TruthfulQA 35,1 42,7 38,6 47,7
WinoBias 1_2 (link em inglês) 58,4 56,4 61,5 60,6
WinoBias 2_2 (link em inglês) 90,0 75,4 90,2 90,3
Toxigen 56,7 50,0 58,8 64,5

Uso e limitações do modelo

Limitações conhecidas

Esses modelos têm certas limitações que os usuários precisam estar cientes:

  • Dados de treinamento
    • A qualidade e a diversidade dos dados de treinamento influenciam significativamente os recursos do modelo. Vieses ou lacunas nos dados de treinamento podem levar às limitações nas respostas do modelo.
    • O escopo do conjunto de dados de treinamento determina as áreas temáticas que o modelo pode lidar com eficácia.
  • Complexidade de contexto e tarefa
    • Os LLMs são melhores em tarefas que podem ser estruturadas com comandos claros e instruções. Tarefas abertas ou altamente complexas podem ser desafiadoras.
    • O desempenho de um modelo pode ser influenciado pela quantidade de contexto fornecido (um contexto mais longo geralmente leva a melhores saídas, até um em um determinado ponto).
  • Ambiguidade e nuances de linguagem
    • A linguagem natural é inerentemente complexa. LLMs podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
  • Precisão dos fatos
    • Os LLMs geram respostas com base nas informações que aprenderam com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Eles podem gerar declarações factuais incorretas ou desatualizadas.
  • Bom senso
    • Os LLMs dependem de padrões estatísticos na linguagem. Eles podem não ter a capacidade de aplicar o raciocínio do bom senso em determinadas situações.

Considerações éticas e riscos

O desenvolvimento de modelos de linguagem grandes (LLMs) desperta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:

  • Viés e imparcialidade
    • LLMs treinados com dados de texto do mundo real em grande escala podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos passou por um exame minucioso, o pré-processamento dos dados de entrada descreveu e de avaliações posteriores relatadas nesse card.
  • Desinformação e uso indevido
    • LLMs podem ser usados indevidamente para gerar texto falso, enganoso ou prejudiciais.
    • as diretrizes são fornecidas para uso responsável com o modelo, consulte a IA generativa responsável Toolkit.
  • Transparência e responsabilidade
    • Este card de modelo resume os detalhes da arquitetura capacidades, limitações e processos de avaliação.
    • Um modelo aberto e desenvolvido de forma responsável oferece a oportunidade de compartilhar inovação tornando a tecnologia LLM acessível aos desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigações:

  • Perpetuação de vieses:é incentivado a realização de monitoramento contínuo. (usando métricas de avaliação, revisão humana) e a análise de desigualdade técnicas durante o treinamento de modelos, o ajuste fino e outros casos de uso.
  • Geração de conteúdo nocivo:mecanismos e diretrizes para conteúdo. segurança são essenciais. Incentivamos os desenvolvedores a ter cautela a implementar salvaguardas previstas de segurança de conteúdo com base políticas de produtos e casos de uso de aplicativos.
  • Uso indevido para fins maliciosos: limitações técnicas e o a educação do usuário final pode ajudar a mitigar aplicativos maliciosos de LLMs. Existem recursos educacionais e mecanismos de denúncia para os usuários sinalizarem uso indevido fornecidas. Os usos proibidos dos modelos Gemma estão descritos nos nossos Termos de usar.
  • Violações de privacidade:os modelos foram treinados com dados filtrados para remoção de PII (informações de identificação pessoal). Os desenvolvedores são incentivados a cumprir os regulamentos de privacidade com técnicas que preservam a privacidade.

Uso pretendido

Aplicativo

Os modelos de linguagem grandes (LLMs) abertos têm uma ampla variedade de em vários setores e domínios. A lista de possíveis usos a seguir não está abrangente. O objetivo dessa lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram treinamento e desenvolvimento.

  • Criação e comunicação de conteúdo
    • Geração de texto:esses modelos podem ser usados para gerar texto do criativo. formatos como poemas, scripts, códigos, textos de marketing, rascunhos de e-mails etc.
    • Chatbots e IA de conversação: potencialize interfaces de conversa para: atendimento ao cliente, assistentes virtuais ou aplicativos interativos.
    • Resumo de texto:gere resumos concisos de um corpus de texto. artigos de pesquisa ou relatórios.
  • Pesquisa e educação
    • Pesquisa de processamento de linguagem natural (PLN):esses modelos podem servir como base para que pesquisadores experimentem técnicas de PLN, desenvolver algoritmos e contribuir para o avanço dessa área.
    • Ferramentas de aprendizado de idiomas:ajudam no ensino interativo de idiomas experiências, auxiliando na correção gramatical ou na prática de escrita.
    • Exploração do conhecimento:ajude pesquisadores na exploração de corpos grandes de texto gerando resumos ou respondendo a perguntas sobre tópicos.

Vantagens

No momento do lançamento, essa família de modelos oferece alto desempenho grandes implementações de modelos de linguagem projetadas do zero para desenvolvimento de IA em comparação com modelos de tamanhos semelhantes.

Usando as métricas de avaliação de comparativo de mercado descritas neste documento, esses modelos mostraram oferecer desempenho superior a outros modelos abertos de tamanho comparável alternativas.

Em particular, os modelos RecurrentGemma alcançam uma performance parecida com a do Gemma mas são mais rápidos durante a inferência e exigem menos memória, especialmente longas sequências.