Confira o repositório do Gemma Cookbook para ver exemplos de geração e ajuste. Saiba mais

Esta página foi traduzida pela API Cloud Translation.

Card de modelo do RecurrentGemma

Página do modelo:RecurrentGemma

Recursos e documentação técnica:

Termos de Uso:Termos

Autores:Google

Informações do modelo

Resumo do modelo

Descrição

O RecurrentGemma é uma família de modelos de linguagem abertos criados com base em uma nova arquitetura recorrente desenvolvida no Google. As versões pré-treinadas e ajustadas por instrução estão disponíveis em inglês.

Assim como o Gemma, os modelos RecurrentGemma são adequados para várias tarefas de geração de texto, incluindo resposta a perguntas, resumo e raciocínio. Devido à arquitetura inovadora, o RecurrentGemma requer menos memória do que o Gemma e consegue uma inferência mais rápida ao gerar sequências longas.

Entradas e saídas

Entrada:string de texto (por exemplo, uma pergunta, um comando ou um documento a ser summarized).
Saída:texto gerado em inglês em resposta à entrada (por exemplo, uma resposta à pergunta, um resumo do documento).

Citação

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Dados do modelo

Conjunto de dados de treinamento e processamento de dados

O RecurrentGemma usa os mesmos dados de treinamento e processamento de dados usados pela família de modelos Gemma. A descrição completa está disponível no card de modelo do Gemma.

Informações de implementação

Hardware e frameworks usados durante o treinamento

Assim como o Gemma, o RecurrentGemma foi treinado em TPUv5e, usando JAX e ML Pathways.

Informações da avaliação

Resultados da comparação

Abordagem de avaliação

Esses modelos foram avaliados em relação a uma grande coleção de diferentes conjuntos de dados e métricas para cobrir diferentes aspectos da geração de texto:

Resultados da avaliação

Benchmark	Métrica	RecurrentGemma 2B	RecurrentGemma 9B
MMLU	5-shot, top-1	38,4	60.5
HellaSwag	Zero-shot	71,0	80,4
PIQA	Zero-shot	78,5	81,3
SocialIQA	Zero-shot	51,8	52,3
BoolQ	Zero-shot	71,3	80,3
WinoGrande	pontuação parcial	67,8	73,6
CommonsenseQA	7-shot	63,7	73,2
OpenBookQA		47,2	51,8
ARC-e		72,9	78,8
ARC-c		42,3	52,0
TriviaQA	5 fotos	52,5	70,5
Perguntas naturais	5 fotos	11,5	21,7
HumanEval	pass@1	21.3	31.1
MBPP	3 fotos	28,8	42,0
GSM8K	maj@1	13,4	42,6
MATH	4 fotos	11,0	23,8
AGIEval		23,8	39,3
BIG-Bench (link em inglês)		35,3	55.2
Média		44,6	56.1

Ética e segurança

Ética e avaliações de segurança

Abordagem de avaliação

Nossos métodos de avaliação incluem avaliações estruturadas e testes internos de equipe vermelha de políticas de conteúdo relevantes. O red-teaming foi conduzido por várias equipes diferentes, cada uma com objetivos e métricas de avaliação humana diferentes. Esses modelos foram avaliados em relação a várias categorias diferentes relevantes para ética e segurança, incluindo:

Segurança de conteúdo de texto para texto:avaliação humana de instruções que abrangem políticas de segurança, incluindo abuso e exploração sexual infantil, assédio, violência, conteúdo gore e discurso de ódio.
Prejuízos de representação de texto para texto:comparação com conjuntos de dados acadêmicos relevantes, como WinoBias e BBQ Dataset.
Memorização:avaliação automatizada da memorização de dados de treinamento, incluindo o risco de exposição de informações de identificação pessoal.
Danos em grande escala:testes de "recursos perigosos", como riscos químicos, biológicos, radiológicos e nucleares (CBRN), além de testes de persuasão e decepção, segurança cibernética e replicação autônoma.

Resultados da avaliação

Os resultados das avaliações de ética e segurança estão dentro dos limites aceitáveis para atender às políticas internas em categorias como segurança infantil, segurança de conteúdo, danos de representação, memorização e danos em grande escala. Além de avaliações internas robustas, os resultados de comparativos de mercado de segurança bem conhecidos, como BBQ, Winogender, WinoBias, RealToxicity e TruthfulQA, são mostrados aqui.

Benchmark	Métrica	RecurrentGemma 2B	RecurrentGemma 2B IT	RecurrentGemma 9B	RecurrentGemma 9B IT
RealToxicity	média	9,8	7,60	10.3	8.8
NEGRITO		39,3	52,3	39,8	47,9
CrowS-Pairs (em inglês)	top-1	41.1	43,4	38,7	39,5
BBQ Ambig	top-1	62,6	71.1	95,9	67.1
BBQ Disambig	top-1	58,4	50,8	78,6	78,9
Winogender (em inglês)	top-1	55.1	54,7	59,0	64,0
TruthfulQA		35,1	42,7	38,6	47,7
WinoBias 1_2		58,4	56,4	61,5	60,6
WinoBias 2_2		90,0	75,4	90,2	90,3
Toxigen		56,7	50,0	58,8	64,5

Uso e limitações do modelo

Limitações conhecidas

Esses modelos têm algumas limitações que os usuários precisam conhecer:

Dados de treinamento
- A qualidade e a diversidade dos dados de treinamento influenciam significativamente as capacidades do modelo. Vieses ou lacunas nos dados de treinamento podem levar a limitações nas respostas do modelo.
- O escopo do conjunto de dados de treinamento determina as áreas temáticas que o modelo pode processar com eficácia.
Contexto e complexidade da tarefa
- Os LLMs são melhores em tarefas que podem ser enquadradas com instruções e comandos claros. Tarefas abertas ou muito complexas podem ser desafiadoras.
- O desempenho de um modelo pode ser influenciado pela quantidade de contexto fornecido. Um contexto mais longo geralmente leva a melhores resultados, até certo ponto.
Ambiguidade e nuances da linguagem
- A linguagem natural é inerentemente complexa. Os LLMs podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
Precisão factual
- Os LLMs geram respostas com base nas informações que aprenderam com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Eles podem gerar declarações factuais incorretas ou desatualizadas.
Bom senso
- Os LLMs dependem de padrões estatísticos na linguagem. Eles podem não ter a capacidade de aplicar o raciocínio de bom senso em determinadas situações.

Considerações éticas e riscos

O desenvolvimento de modelos de linguagem grandes (LLMs) levanta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:

Viés e imparcialidade
- Os LLMs treinados com dados de texto reais em grande escala podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos foram cuidadosamente examinados, o pré-processamento de dados de entrada foi descrito e as avaliações posteriores foram informadas neste card.
Desinformação e uso indevido
- Os LLMs podem ser usados indevidamente para gerar textos falsos, enganosos ou prejudiciais.
- As diretrizes são fornecidas para uso responsável com o modelo. Consulte o Kit de ferramentas de IA generativa responsável.
Transparência e responsabilidade
- Este card de modelo resume detalhes sobre a arquitetura, os recursos, as limitações e os processos de avaliação dos modelos.
- Um modelo aberto desenvolvido de forma responsável oferece a oportunidade de compartilhar inovação, tornando a tecnologia LLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigações:

Perpetuação de vieses:é recomendável realizar um monitoramento contínuo (usando métricas de avaliação, revisão humana) e a exploração de técnicas de eliminação de viés durante o treinamento do modelo, ajuste fino e outros casos de uso.
Geração de conteúdo nocivo:mecanismos e diretrizes para a segurança do conteúdo são essenciais. Recomendamos que os desenvolvedores tenham cuidado e implementem as salvaguardas de segurança de conteúdo adequadas com base nas políticas específicas do produto e nos casos de uso do aplicativo.
Uso indevido para fins maliciosos:limitações técnicas e treinamentos para desenvolvedores e usuários finais podem ajudar a mitigar aplicativos maliciosos de LLMs. Recursos educacionais e mecanismos de denúncia para que os usuários denunciem o uso indevido são fornecidos. Os usos proibidos dos modelos Gemma estão descritos nos nossos termos de uso.
Violações de privacidade:os modelos foram treinados com dados filtrados para remoção de informações de identificação pessoal (PII). Recomendamos que os desenvolvedores cumpram as regulamentações de privacidade com técnicas que preservam a privacidade.

Uso pretendido

Aplicativo

Os modelos de linguagem grandes abertos (LLMs) têm uma ampla gama de aplicativos em vários setores e domínios. A lista de usos possíveis a seguir não é completa. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram como parte do treinamento e desenvolvimento do modelo.

Criação de conteúdo e comunicação
- Geração de texto:esses modelos podem ser usados para gerar formatos de texto criativo, como poemas, roteiros, código, cópia de marketing, rascunhos de e-mail etc.
- Chatbots e IA de conversação:forneça interfaces de conversação para atendimento ao cliente, assistentes virtuais ou aplicativos interativos.
- Resumo de texto:gere resumos concisos de um corpus de texto, trabalhos de pesquisa ou relatórios.
Pesquisa e educação
- Pesquisa de processamento de linguagem natural (PLN):esses modelos podem servir como base para os pesquisadores experimentarem técnicas de PLN, desenvolver algoritmos e contribuir para o avanço da área.
- Ferramentas de aprendizado de idiomas:oferecem suporte a experiências interativas de aprendizado de idiomas, auxiliando na correção gramatical ou oferecendo prática de escrita.
- Análise de conhecimento:ajuda os pesquisadores a analisar grandes volumes de texto gerando resumos ou respondendo a perguntas sobre temas específicos.

Vantagens

No momento do lançamento, essa família de modelos oferece implementações de modelos de linguagem grandes de alto desempenho e de código aberto projetadas do zero para o desenvolvimento de IA responsável em comparação com modelos de tamanho semelhante.

Usando as métricas de avaliação de comparação descritas neste documento, esses modelos foram mostrados como tendo um desempenho superior a outras alternativas de modelo aberto de tamanho semelhante.

Em particular, os modelos RecurrentGemma têm desempenho semelhante aos modelos Gemma, mas são mais rápidos durante a inferência e exigem menos memória, especialmente em sequências longas.