Рекуррентная Джемма

RecurrentGemma — это открытая модель, основанная на Griffin , гибридной модели, которая сочетает в себе закрытые линейные повторения с вниманием к локальному скользящему окну.

Как и Gemma, RecurrentGemma хорошо подходит для различных задач по созданию текста, включая ответы на вопросы, обобщение и рассуждения. Однако уникальная архитектура RecurrentGemma предлагает следующие дополнительные преимущества:

  • Более низкие требования к памяти позволяют генерировать более длинные образцы на устройствах с ограниченной памятью, таких как одиночные графические процессоры или процессоры.
  • RecurrentGemma может выполнять логический вывод при значительно больших размерах пакетов, а это означает, что она может генерировать значительно больше токенов в секунду, особенно при создании длинных последовательностей.
  • RecurrentGemma соответствует производительности Gemma, но требует меньше памяти и обеспечивает более быстрый вывод.

Дополнительные материалы

Карточка модели RecurrentGemma содержит подробную информацию о модели, информацию о реализации, информацию об оценке, использовании и ограничениях модели и многое другое.
Просмотрите дополнительный код, блокноты Colab, информацию и обсуждения RecurrentGemma на Kaggle.
Запустите примеры блокнотов Colab для JAX и PyTorch на GitHub.