RecurrentGemma
O RecurrentGemma é um modelo aberto baseado no Griffin (link em inglês), um modelo híbrido que combina recorrências lineares controladas com atenção de janela deslizante local.
Assim como o Gemma, o RecurrentGemma é adequado para várias tarefas de geração de texto, incluindo respostas a perguntas, resumo e raciocínio. No entanto, a arquitetura exclusiva do RecurrentGemma oferece as seguintes vantagens:
-
Redução no uso da memória
Requisitos mais baixos de memória permitem a geração de amostras mais longas em dispositivos com memória limitada, como GPUs ou CPUs únicas. -
Capacidade maior
O RecurrentGemma pode realizar inferência em tamanhos de lote significativamente maiores, o que significa que ele pode gerar muito mais tokens por segundo, especialmente ao gerar sequências longas. -
Alto desempenho
O RecurrentGemma corresponde ao desempenho da Gemma, mas exige menos memória e alcança inferências mais rápidas.