Página do modelo:RecurrentGemma
Recursos e documentação técnica:
Termos de Uso:Termos
Autores:Google
Informações do modelo
Resumo do modelo
Descrição
O RecurrentGemma é uma família de modelos de linguagem abertos criados com base em uma nova arquitetura recorrente desenvolvida no Google. As versões pré-treinadas e ajustadas por instrução estão disponíveis em inglês.
Assim como o Gemma, os modelos RecurrentGemma são adequados para várias tarefas de geração de texto, incluindo resposta a perguntas, resumo e raciocínio. Devido à arquitetura inovadora, o RecurrentGemma requer menos memória do que o Gemma e consegue uma inferência mais rápida ao gerar sequências longas.
Entradas e saídas
- Entrada:string de texto (por exemplo, uma pergunta, um comando ou um documento a ser summarized).
- Saída:texto gerado em inglês em resposta à entrada (por exemplo, uma resposta à pergunta, um resumo do documento).
Citação
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
Dados do modelo
Conjunto de dados de treinamento e processamento de dados
O RecurrentGemma usa os mesmos dados de treinamento e processamento de dados usados pela família de modelos Gemma. A descrição completa está disponível no card de modelo do Gemma.
Informações de implementação
Hardware e frameworks usados durante o treinamento
Assim como o Gemma, o RecurrentGemma foi treinado em TPUv5e, usando JAX e ML Pathways.
Informações da avaliação
Resultados da comparação
Abordagem de avaliação
Esses modelos foram avaliados em relação a uma grande coleção de diferentes conjuntos de dados e métricas para cobrir diferentes aspectos da geração de texto:
Resultados da avaliação
Benchmark | Métrica | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | 5-shot, top-1 | 38,4 | 60.5 |
HellaSwag | Zero-shot | 71,0 | 80,4 |
PIQA | Zero-shot | 78,5 | 81,3 |
SocialIQA | Zero-shot | 51,8 | 52,3 |
BoolQ | Zero-shot | 71,3 | 80,3 |
WinoGrande | pontuação parcial | 67,8 | 73,6 |
CommonsenseQA | 7-shot | 63,7 | 73,2 |
OpenBookQA | 47,2 | 51,8 | |
ARC-e | 72,9 | 78,8 | |
ARC-c | 42,3 | 52,0 | |
TriviaQA | 5 fotos | 52,5 | 70,5 |
Perguntas naturais | 5 fotos | 11,5 | 21,7 |
HumanEval | pass@1 | 21.3 | 31.1 |
MBPP | 3 fotos | 28,8 | 42,0 |
GSM8K | maj@1 | 13,4 | 42,6 |
MATH | 4 fotos | 11,0 | 23,8 |
AGIEval | 23,8 | 39,3 | |
BIG-Bench (link em inglês) | 35,3 | 55.2 | |
Média | 44,6 | 56.1 |
Ética e segurança
Ética e avaliações de segurança
Abordagem de avaliação
Nossos métodos de avaliação incluem avaliações estruturadas e testes internos de equipe vermelha de políticas de conteúdo relevantes. O red-teaming foi conduzido por várias equipes diferentes, cada uma com objetivos e métricas de avaliação humana diferentes. Esses modelos foram avaliados em relação a várias categorias diferentes relevantes para ética e segurança, incluindo:
- Segurança de conteúdo de texto para texto:avaliação humana de instruções que abrangem políticas de segurança, incluindo abuso e exploração sexual infantil, assédio, violência, conteúdo gore e discurso de ódio.
- Prejuízos de representação de texto para texto:comparação com conjuntos de dados acadêmicos relevantes, como WinoBias e BBQ Dataset.
- Memorização:avaliação automatizada da memorização de dados de treinamento, incluindo o risco de exposição de informações de identificação pessoal.
- Danos em grande escala:testes de "recursos perigosos", como riscos químicos, biológicos, radiológicos e nucleares (CBRN), além de testes de persuasão e decepção, segurança cibernética e replicação autônoma.
Resultados da avaliação
Os resultados das avaliações de ética e segurança estão dentro dos limites aceitáveis para atender às políticas internas em categorias como segurança infantil, segurança de conteúdo, danos de representação, memorização e danos em grande escala. Além de avaliações internas robustas, os resultados de comparativos de mercado de segurança bem conhecidos, como BBQ, Winogender, WinoBias, RealToxicity e TruthfulQA, são mostrados aqui.
Benchmark | Métrica | RecurrentGemma 2B | RecurrentGemma 2B IT | RecurrentGemma 9B | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | média | 9,8 | 7,60 | 10.3 | 8.8 |
NEGRITO | 39,3 | 52,3 | 39,8 | 47,9 | |
CrowS-Pairs (em inglês) | top-1 | 41.1 | 43,4 | 38,7 | 39,5 |
BBQ Ambig | top-1 | 62,6 | 71.1 | 95,9 | 67.1 |
BBQ Disambig | top-1 | 58,4 | 50,8 | 78,6 | 78,9 |
Winogender (em inglês) | top-1 | 55.1 | 54,7 | 59,0 | 64,0 |
TruthfulQA | 35,1 | 42,7 | 38,6 | 47,7 | |
WinoBias 1_2 | 58,4 | 56,4 | 61,5 | 60,6 | |
WinoBias 2_2 | 90,0 | 75,4 | 90,2 | 90,3 | |
Toxigen | 56,7 | 50,0 | 58,8 | 64,5 |
Uso e limitações do modelo
Limitações conhecidas
Esses modelos têm algumas limitações que os usuários precisam conhecer:
- Dados de treinamento
- A qualidade e a diversidade dos dados de treinamento influenciam significativamente as capacidades do modelo. Vieses ou lacunas nos dados de treinamento podem levar a limitações nas respostas do modelo.
- O escopo do conjunto de dados de treinamento determina as áreas temáticas que o modelo pode processar com eficácia.
- Contexto e complexidade da tarefa
- Os LLMs são melhores em tarefas que podem ser enquadradas com instruções e comandos claros. Tarefas abertas ou muito complexas podem ser desafiadoras.
- O desempenho de um modelo pode ser influenciado pela quantidade de contexto fornecido. Um contexto mais longo geralmente leva a melhores resultados, até certo ponto.
- Ambiguidade e nuances da linguagem
- A linguagem natural é inerentemente complexa. Os LLMs podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
- Precisão factual
- Os LLMs geram respostas com base nas informações que aprenderam com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Eles podem gerar declarações factuais incorretas ou desatualizadas.
- Bom senso
- Os LLMs dependem de padrões estatísticos na linguagem. Eles podem não ter a capacidade de aplicar o raciocínio de bom senso em determinadas situações.
Considerações éticas e riscos
O desenvolvimento de modelos de linguagem grandes (LLMs) levanta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:
- Viés e imparcialidade
- Os LLMs treinados com dados de texto reais em grande escala podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos foram cuidadosamente examinados, o pré-processamento de dados de entrada foi descrito e as avaliações posteriores foram informadas neste card.
- Desinformação e uso indevido
- Os LLMs podem ser usados indevidamente para gerar textos falsos, enganosos ou prejudiciais.
- As diretrizes são fornecidas para uso responsável com o modelo. Consulte o Kit de ferramentas de IA generativa responsável.
- Transparência e responsabilidade
- Este card de modelo resume detalhes sobre a arquitetura, os recursos, as limitações e os processos de avaliação dos modelos.
- Um modelo aberto desenvolvido de forma responsável oferece a oportunidade de compartilhar inovação, tornando a tecnologia LLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.
Riscos identificados e mitigações:
- Perpetuação de vieses:é recomendável realizar um monitoramento contínuo (usando métricas de avaliação, revisão humana) e a exploração de técnicas de eliminação de viés durante o treinamento do modelo, ajuste fino e outros casos de uso.
- Geração de conteúdo nocivo:mecanismos e diretrizes para a segurança do conteúdo são essenciais. Recomendamos que os desenvolvedores tenham cuidado e implementem as salvaguardas de segurança de conteúdo adequadas com base nas políticas específicas do produto e nos casos de uso do aplicativo.
- Uso indevido para fins maliciosos:limitações técnicas e treinamentos para desenvolvedores e usuários finais podem ajudar a mitigar aplicativos maliciosos de LLMs. Recursos educacionais e mecanismos de denúncia para que os usuários denunciem o uso indevido são fornecidos. Os usos proibidos dos modelos Gemma estão descritos nos nossos termos de uso.
- Violações de privacidade:os modelos foram treinados com dados filtrados para remoção de informações de identificação pessoal (PII). Recomendamos que os desenvolvedores cumpram as regulamentações de privacidade com técnicas que preservam a privacidade.
Uso pretendido
Aplicativo
Os modelos de linguagem grandes abertos (LLMs) têm uma ampla gama de aplicativos em vários setores e domínios. A lista de usos possíveis a seguir não é completa. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram como parte do treinamento e desenvolvimento do modelo.
- Criação de conteúdo e comunicação
- Geração de texto:esses modelos podem ser usados para gerar formatos de texto criativo, como poemas, roteiros, código, cópia de marketing, rascunhos de e-mail etc.
- Chatbots e IA de conversação:forneça interfaces de conversação para atendimento ao cliente, assistentes virtuais ou aplicativos interativos.
- Resumo de texto:gere resumos concisos de um corpus de texto, trabalhos de pesquisa ou relatórios.
- Pesquisa e educação
- Pesquisa de processamento de linguagem natural (PLN):esses modelos podem servir como base para os pesquisadores experimentarem técnicas de PLN, desenvolver algoritmos e contribuir para o avanço da área.
- Ferramentas de aprendizado de idiomas:oferecem suporte a experiências interativas de aprendizado de idiomas, auxiliando na correção gramatical ou oferecendo prática de escrita.
- Análise de conhecimento:ajuda os pesquisadores a analisar grandes volumes de texto gerando resumos ou respondendo a perguntas sobre temas específicos.
Vantagens
No momento do lançamento, essa família de modelos oferece implementações de modelos de linguagem grandes de alto desempenho e de código aberto projetadas do zero para o desenvolvimento de IA responsável em comparação com modelos de tamanho semelhante.
Usando as métricas de avaliação de comparação descritas neste documento, esses modelos foram mostrados como tendo um desempenho superior a outras alternativas de modelo aberto de tamanho semelhante.
Em particular, os modelos RecurrentGemma têm desempenho semelhante aos modelos Gemma, mas são mais rápidos durante a inferência e exigem menos memória, especialmente em sequências longas.