RecurrentGemma
O RecurrentGemma é um modelo aberto baseado no Griffin, uma arquitetura de modelo híbrido que mistura recorrências lineares controladas com atenção da janela deslizante local.
Assim como a Gemma, o RecurrentGemma é ideal para uma variedade de tarefas de geração de texto, incluindo resposta a perguntas, resumo e raciocínio. No entanto, a arquitetura exclusiva do RecurrentGemma oferece as seguintes vantagens:
-
Redução no uso da memória
Requisitos mais baixos de memória permitem a geração de amostras mais longas em dispositivos com memória limitada, como GPUs ou CPUs únicas. -
Capacidade maior
O RecurrentGemma pode realizar inferência em tamanhos de lote significativamente maiores, o que significa que ele pode gerar muito mais tokens por segundo, especialmente ao gerar sequências longas. -
Alto desempenho
O RecurrentGemma corresponde ao desempenho da Gemma, mas exige menos memória e alcança inferências mais rápidas.