Página de modelo: RecurrentGemma
Recursos e documentação técnica:
Termos de Uso: Termos
Autores:Google
Informações do modelo
Resumo do modelo
Descrição
O RecurrentGemma é uma família de modelos de linguagem aberta criada em uma nova arquitetura recorrente desenvolvida no Google. As versões pré-treinadas e ajustadas por instrução estão disponíveis em inglês.
Assim como o Gemma, os modelos do RecurrentGemma são adequados para várias tarefas de geração de texto, incluindo respostas a perguntas, resumo e raciocínio. Devido à nova arquitetura, o RecurrentGemma requer menos memória que o Gemma e realiza inferências mais rápidas ao gerar sequências longas.
Entradas e saídas
- Entrada:string de texto, por exemplo, uma pergunta, um comando ou um documento a ser resumido.
- Saída:texto em inglês gerado em resposta à entrada (por exemplo, uma resposta à pergunta, um resumo do documento).
Citação
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
Dados do modelo
Conjunto de dados de treinamento e processamento de dados
O RecurrentGemma usa os mesmos dados de treinamento e processamento de dados usados pela família de modelos Gemma. Uma descrição completa está disponível no card de modelo Gemma.
Informações de implementação
Hardware e frameworks usados durante o treinamento
Assim como o Gemma, o RecurrentGemma foi treinado na TPUv5e usando o JAX e o ML Pathways.
Informações da avaliação
Resultados da comparação
Abordagem de avaliação
Esses modelos foram avaliados em relação a uma grande coleção de conjuntos de dados e métricas diferentes para abranger diferentes aspectos da geração de texto:
Resultados da avaliação
Benchmark | Métrica | RecurrentGemma 2B |
---|---|---|
MMLU (em inglês) | 5 rebatidas, top-1 | 38,4 |
HellaSwag | 0 tiro | 71,0 |
PIQA (em inglês) | 0 tiro | 78,5 |
SocialIQA | 0 tiro | 51,8 |
BoolQ | 0 tiro | 71,3 |
WinoGrande | pontuação parcial | 67,8 |
CommonsenseQA | 7 tiros | 63,7 |
OpenBookQA | 47,2 | |
ARC-e (link em inglês) | 72,9 | |
ARC-c (link em inglês) | 42,3 | |
TriviaQA | 5 tiros | 52,5 |
Perguntas naturais | 5 tiros | 11,5 |
HumanEval | passe@1 | 21,3 |
MBPP (em inglês) | 3 tiros | 28,8 |
GSM8K (em inglês) | maj@1 | 13,4 |
MATH | 4 tiros | 11,0 |
AGIEval | 23,8 | |
Bigbench (em inglês) | 35,3 | |
Na média | 44,6 |
Ética e segurança
Avaliações de ética e segurança
Abordagem de avaliações
Nossos métodos incluem avaliações estruturadas e testes internos em equipe vermelha de políticas de conteúdo relevantes. A equipe vermelha foi conduzida por várias equipes diferentes, cada uma com metas e métricas de avaliação humana distintas. Esses modelos foram avaliados em relação a várias categorias diferentes relevantes para ética e segurança, incluindo:
- Segurança do conteúdo em texto para texto:avaliação humana de comandos que abordam políticas de segurança, incluindo abuso e exploração sexual infantil, assédio, violência e imagens sangrentas e discurso de ódio.
- Danos representações de texto em texto:compare com conjuntos de dados acadêmicos relevantes, como o WinoBias e o conjunto de dados de churrasco.
- Memorização: avaliação automatizada da memorização de dados de treinamento, incluindo o risco de exposição de informações de identificação pessoal.
- Danos em grande escala:testes de "capacidades perigosas", como riscos químicos, biológicos, radiológicos e nucleares (CBRN, na sigla em inglês), bem como testes de persuasão e fraude, segurança cibernética e replicação autônoma.
Resultados da avaliação
Os resultados das avaliações de ética e segurança estão dentro de limites aceitáveis para atender a políticas internas de categorias como segurança infantil, segurança do conteúdo, danos às representações, memorização e danos em grande escala. Além de avaliações internas robustas, os resultados de comparativos de mercado de segurança bem conhecidos, como Churrasco, Winogender, Winobias, RealToxicity e TruthfulQA são mostrados aqui.
Benchmark | Métrica | RecurrentGemma 2B | RecurrentGemma 2B IT |
---|---|---|---|
RealToxicity | média | 9,8 | 7,6 |
NEGRITO | 39,3 | 52,4 | |
CrowS-Pairs (em inglês) | top-1 | 41,1 | 43,4 |
Churrasco | top-1 | 62,6 | 71,1 |
Desambigode churrasco | top-1 | 58,4 | 50,8 |
Winogender | top-1 | 55.1 | 54,7 |
TruthfulQA | 35,1 | 42,7 | |
Winobias 1_2 | 58,4 | 56,4 | |
Winobias 2_2 | 90,0 | 75,4 | |
Toxigênio | 56,7 | 50,0 |
Uso e limitações do modelo
Limitações conhecidas
Esses modelos têm certas limitações que os usuários devem estar cientes:
- Dados de treinamento
- A qualidade e a diversidade dos dados de treinamento influenciam significativamente as capacidades do modelo. Vieses ou lacunas nos dados de treinamento podem levar a limitações nas respostas do modelo.
- O escopo do conjunto de dados de treinamento determina as áreas temáticas que o modelo pode lidar com eficácia.
- Contexto e complexidade da tarefa
- Os LLMs são melhores em tarefas que podem ser enquadradas com instruções e instruções claras. Tarefas abertas ou altamente complexas podem ser desafiadoras.
- O desempenho de um modelo pode ser influenciado pela quantidade de contexto fornecida (um contexto mais longo geralmente leva a melhores resultados até um determinado ponto).
- Ambiguidade e nuance de linguagem
- A linguagem natural é inerentemente complexa. os LLMs podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
- Precisão real
- Os LLMs geram respostas com base nas informações que aprenderam com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Podem gerar declarações factuais incorretas ou desatualizadas.
- Bom senso
- Os LLMs dependem de padrões estatísticos na linguagem. Eles podem não conseguir aplicar o raciocínio com bom senso em determinadas situações.
Considerações éticas e riscos
O desenvolvimento de modelos de linguagem grandes (LLMs) gera várias preocupações éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:
- Viés e imparcialidade
- LLMs treinados com dados de texto em grande escala do mundo real podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos passaram por uma análise cuidadosa, o pré-processamento de dados de entrada descrito e avaliações posteriores relatadas neste card.
- Desinformação e uso indevido
- Os LLMs podem ser usados indevidamente para gerar texto falso, enganoso ou prejudicial.
- As diretrizes são fornecidas para o uso responsável com o modelo. Consulte o Kit de ferramentas de IA generativa responsável.
- Transparência e responsabilidade
- Este card de modelo resume os detalhes sobre a arquitetura, os recursos, as limitações e os processos de avaliação dos modelos.
- Um modelo aberto desenvolvido com responsabilidade oferece a oportunidade de compartilhar inovações, tornando a tecnologia LLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.
Riscos identificados e mitigações:
- Perpetuação de vieses:é recomendável realizar um monitoramento contínuo (usando métricas de avaliação, revisão humana) e a exploração de técnicas de neutralização durante o treinamento do modelo, o ajuste e outros casos de uso.
- Geração de conteúdo nocivo:mecanismos e diretrizes para a segurança do conteúdo são essenciais. Recomendamos que os desenvolvedores tenham cuidado e implementem as salvaguardas adequadas de segurança do conteúdo com base nas políticas e nos casos de uso do aplicativo específicas deles.
- Uso indevido para fins maliciosos: limitações técnicas e instruções para desenvolvedores e usuários finais podem ajudar a mitigar o uso de LLMs maliciosos. São fornecidos recursos educacionais e mecanismos de geração de relatórios para que os usuários sinalizem o uso indevido. Os usos proibidos de modelos Gemma estão descritos nos nossos Termos de uso.
- Violações de privacidade:os modelos foram treinados com dados filtrados para remoção de PII (informações de identificação pessoal). Recomendamos que os desenvolvedores sigam os regulamentos de privacidade com técnicas que preservam a privacidade.
Uso pretendido
Aplicativo
Os modelos de linguagem grande (LLMs) abertos têm uma ampla variedade de aplicativos em vários setores e domínios. A lista de possíveis usos a seguir não é abrangente. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores do modelo consideraram como parte do treinamento e do desenvolvimento do modelo.
- Criação e comunicação de conteúdo
- Geração de texto:esses modelos podem ser usados para gerar formatos de texto criativos, como poemas, scripts, códigos, textos de marketing, rascunhos de e-mail etc.
- Bots de chat e IA de conversação:potencialize interfaces de conversa para atendimento ao cliente, assistentes virtuais ou aplicativos interativos.
- Resumo de texto:gere resumos concisos de um corpus de texto, documentos de pesquisa ou relatórios.
- Pesquisa e educação
- Pesquisa de processamento de linguagem natural (PLN): esses modelos podem servir como base para que os pesquisadores testem técnicas de PLN, desenvolvam algoritmos e contribuam para o avanço da área.
- Ferramentas de aprendizado de idiomas:ofereça suporte a experiências interativas de aprendizado de idiomas, ajudando na correção gramatical ou prática de escrita.
- Exploração do conhecimento:ajude pesquisadores a explorar grandes corpos de texto gerando resumos ou respondendo a perguntas sobre tópicos específicos.
Vantagens
No momento do lançamento, essa família de modelos fornece implementações de modelos de linguagem grandes abertos e de alto desempenho projetadas desde o início para o desenvolvimento de IA responsável, em comparação com modelos de tamanhos semelhantes.
Usando as métricas de avaliação de comparativo de mercado descritas neste documento, esses modelos demonstraram um desempenho superior a outras alternativas de modelo aberto de tamanho comparável.
Os modelos do RecurrentGemma alcançam um desempenho comparável ao dos modelos Gemma, mas são mais rápidos durante a inferência e exigem menos memória, especialmente em sequências longas.