Card de modelo do RecurrentGemma

Página de modelo:RecurrentGemma

Recursos e documentação técnica:

Termos de Uso: Termos

Autores: Google

Informações do modelo

Resumo do modelo

Descrição

O RecurrentGemma é uma família de modelos de linguagem aberta criada com base em uma nova arquitetura recorrente desenvolvida no Google. As versões pré-treinadas e ajustadas por instruções estão disponíveis em inglês.

Como o Gemma, os modelos do RecurrentGemma são adequados para várias tarefas de geração de texto, incluindo resposta a perguntas, resumo e raciocínio. Devido à sua nova arquitetura, o RecurrentGemma requer menos memória do que o Gemma e consegue inferências mais rápidas ao gerar sequências longas.

Entradas e saídas

  • Entrada:string de texto (por exemplo, uma pergunta, um comando ou um documento a ser resumido).
  • Saída:texto gerado em inglês em resposta à entrada (por exemplo, uma resposta à pergunta ou um resumo do documento).

Citação

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Dados do modelo

Conjunto de dados de treinamento e processamento de dados

O RecurrentGemma usa os mesmos dados de treinamento e processamento de dados utilizados pela família de modelos Gemma. Você encontra a descrição completa no card de modelo do Gemma.

Informações de implementação

Hardware e frameworks usados durante o treinamento

Como o Gemma, o RecurrentGemma foi treinado na TPUv5e, usando JAX e Caminhos de ML.

Informações da avaliação

Resultados da comparação

Abordagem de avaliação

Esses modelos foram avaliados em relação a uma grande coleção de diferentes conjuntos de dados e métricas para abranger diferentes aspectos da geração de texto:

Resultados da avaliação

Benchmark Métrica RecurrentGemma 2B RecurrentGemma 9B
MMLU (link em inglês) 5 tiros, top-1 38,4 60.5
HellaSwag 0 tacada 71,0 80,4
PIQA (em inglês) 0 tacada 78,5 81,3
SocialIQA 0 tacada 51,8 52,3
BoolQ 0 tacada 71,3 80,3
WinoGrande pontuação parcial 67,8 73,6
CommonsenseQA 7 tiros 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e (link em inglês) 72,9 78,8
ARC-c (link em inglês) 42,3 52,0
TriviaQA 5 tiros 52,5 70,5
Perguntas naturais 5 tiros 11,5 21,7
HumanEval passa@1 21,3 31,1
MBPP (link em inglês) 3 fotos 28,8 42,0
GSM8K (link em inglês) maj@1 13,4 42,6
MATH 4 fotos 11,0 23,8
AGIEval 23,8 39,3
BIG-Bench (link em inglês) 35,3 55,2
Na média 44,6 56,1

Ética e segurança

Avaliações de ética e segurança

Abordagem de avaliações

Nossos métodos de avaliação incluem avaliações estruturadas e testes internos de red teaming das políticas de conteúdo relevantes. A equipe vermelha era conduzida por várias equipes, cada uma com metas e métricas de avaliação humanas. Esses modelos foram avaliados em relação a várias categorias diferentes relevantes para ética e segurança, incluindo:

  • Segurança do conteúdo de texto para texto:avaliação humana de solicitações que abrangem políticas de segurança, incluindo abuso e exploração sexual infantil, assédio, violência, sangue e discurso de ódio.
  • Dificuldades na representação de texto para texto: faça um comparativo de mercado com conjuntos de dados acadêmicos relevantes, como WinoBias e banco de dados churrasco.
  • Memorização: avaliação automatizada da memorização de dados de treinamento, incluindo o risco de exposição de informações de identificação pessoal.
  • Danos em grande escala:testes de "recursos perigosos", como riscos químicos, biológicos, radiológicos e nucleares (CBRN, na sigla em inglês), bem como testes de persuasão e fraude, segurança cibernética e replicação autônoma.

Resultados da avaliação

Os resultados das avaliações de ética e segurança estão dentro dos limites aceitáveis para atender às políticas internas de categorias como segurança infantil, segurança de conteúdo, danos à representatividade, memorização e danos em grande escala. Além de avaliações internas robustas, os resultados de comparativos de mercado de segurança conhecidos, como churrasco, Winogender, WinoBias, RealToxicity e TruthfulQA são mostrados aqui.

Benchmark Métrica RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity média 9,8 7,60 10.3 8.8
NEGRITO 39,3 52,3 39,8 47,9
Crows-Pairs top-1 41,1 43,4 38,7 39,5
Churrasco Ambig top-1 62,6 71,1 95,9 67,1
Churrasco top-1 58,4 50,8 78,6 78,9
Winogender (link em inglês) top-1 55.1 54,7 59,0 64,0
TruthfulQA 35,1 42,7 38,6 47,7
WinoBias 1_2 (link em inglês) 58,4 56,4 61,5 60,6
WinoBias 2_2 (link em inglês) 90,0 75,4 90,2 90,3
Toxigenação 56,7 50,0 58,8 64,5

Uso e limitações do modelo

Limitações conhecidas

Esses modelos têm certas limitações que os usuários precisam estar cientes:

  • Dados de treinamento
    • A qualidade e a diversidade dos dados de treinamento influenciam significativamente os recursos do modelo. Vieses ou lacunas nos dados de treinamento podem limitar as respostas do modelo.
    • O escopo do conjunto de dados de treinamento determina as áreas de assunto com que o modelo pode lidar de maneira eficaz.
  • Complexidade de contexto e tarefa
    • Os LLMs são melhores em tarefas que podem ser estruturadas com comandos e instruções claros. Tarefas abertas ou altamente complexas podem ser desafiadoras.
    • O desempenho de um modelo pode ser influenciado pela quantidade de contexto fornecida (um contexto mais longo geralmente leva a melhores saídas até um determinado ponto).
  • Ambiguidade e nuances de linguagem
    • A linguagem natural é inerentemente complexa. Talvez os LLMs tenham dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
  • Precisão dos fatos
    • Os LLMs geram respostas com base nas informações aprendidas nos conjuntos de dados de treinamento, mas não são bases de conhecimento. Podem gerar declarações factuais incorretas ou desatualizadas.
  • Bom senso
    • Os LLMs dependem de padrões estatísticos na linguagem. Eles podem não conseguir aplicar o raciocínio do bom senso em determinadas situações.

Considerações éticas e riscos

O desenvolvimento de modelos de linguagem grandes (LLMs) desperta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:

  • Viés e imparcialidade
    • LLMs treinados com dados de texto reais e em grande escala podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos passaram por um minúsculo minucioso, o pré-processamento de dados de entrada descrito e avaliações posteriores informadas neste card.
  • Desinformação e uso indevido
  • Transparência e responsabilidade
    • Neste card de modelo, resumimos os detalhes sobre a arquitetura, as capacidades, as limitações e os processos de avaliação dos modelos.
    • Um modelo aberto desenvolvido de maneira responsável oferece a oportunidade de compartilhar inovações, tornando a tecnologia LLM acessível para desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigações:

  • Perpetuação de vieses:é recomendável realizar monitoramento contínuo (usando métricas de avaliação e revisão humana) e a exploração de técnicas de eliminação de vieses durante o treinamento do modelo, o ajuste fino e outros casos de uso.
  • Geração de conteúdo nocivo:mecanismos e diretrizes para segurança de conteúdo são essenciais. Recomendamos que os desenvolvedores tenham cautela e implementem proteções adequadas de segurança de conteúdo com base nas políticas de produtos e nos casos de uso de aplicativos específicos.
  • Uso indevido para fins maliciosos:limitações técnicas e educação de desenvolvedores e usuários finais podem ajudar a mitigar aplicativos maliciosos de LLMs. Fornecemos recursos educacionais e mecanismos de denúncia para que os usuários sinalizem uso indevido. Os usos proibidos dos modelos Gemma estão descritos nos nossos Termos de Uso.
  • Violações de privacidade:os modelos foram treinados com dados filtrados para remoção de informações de identificação pessoal (PII). Os desenvolvedores são incentivados a cumprir os regulamentos de privacidade com técnicas de preservação da privacidade.

Uso pretendido

Aplicativo

Os modelos de linguagem grandes (LLMs) abertos têm uma ampla gama de aplicativos em vários setores e domínios. A lista de possíveis usos a seguir não é abrangente. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores do modelo consideraram como parte do treinamento e desenvolvimento do modelo.

  • Criação e comunicação de conteúdo
    • Geração de texto:esses modelos podem ser usados para gerar formatos de texto do criativo, como poemas, scripts, códigos, textos de marketing, rascunhos de e-mails etc.
    • Chatbots e IA de conversação:interfaces de conversação avançadas para atendimento ao cliente, assistentes virtuais ou aplicativos interativos.
    • Resumo de texto:gere resumos concisos de um corpus de texto, documentos de pesquisa ou relatórios.
  • Pesquisa e educação
    • Pesquisa de processamento de linguagem natural (PLN): esses modelos podem servir como uma base para que os pesquisadores testem técnicas de PLN, desenvolvam algoritmos e contribuam para o avanço dessa área.
    • Ferramentas de aprendizado de idiomas:oferecem suporte a experiências interativas de aprendizado de idiomas, auxiliando na correção gramatical ou na prática de escrita.
    • Exploração de conhecimento:ajude pesquisadores a explorar grandes corpos de texto gerando resumos ou respondendo a perguntas sobre tópicos específicos.

Vantagens

No momento do lançamento, essa família de modelos oferece implementações de modelos de linguagem grandes abertos e de alto desempenho projetadas do zero para o desenvolvimento de IA responsável, em comparação com modelos de tamanho semelhante.

Usando as métricas de avaliação de comparativo de mercado descritas neste documento, esses modelos oferecem desempenho superior a outras alternativas de modelos abertos de tamanho comparável.

Em particular, os modelos do RecurrentGemma alcançam um desempenho comparável ao dos modelos do Gemma, mas são mais rápidos durante a inferência e exigem menos memória, especialmente em sequências longas.