Карточка модели RecurrentGemma

Страница модели: RecurrentGemma

Ресурсы и техническая документация:

Условия использования: Условия

Авторы: Google

Информация о модели

Краткое описание модели

Описание

RecurrentGemma — это семейство моделей открытого языка, построенных на новой рекуррентной архитектуре, разработанной в Google. На английском языке доступны как предварительно обученные, так и настроенные с помощью инструкций версии.

Как и Gemma, модели RecurrentGemma хорошо подходят для различных задач по созданию текста, включая ответы на вопросы, обобщение и рассуждения. Благодаря своей новой архитектуре RecurrentGemma требует меньше памяти, чем Gemma, и обеспечивает более быстрый вывод при создании длинных последовательностей.

Входы и выходы

  • Входные данные: текстовая строка (например, вопрос, подсказка или документ, который нужно суммировать).
  • Выходные данные: сгенерированный текст на английском языке в ответ на вводимые данные (например, ответ на вопрос, краткое изложение документа).

Цитирование

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Данные модели

Набор обучающих данных и обработка данных

RecurrentGemma использует те же данные обучения и обработку данных, что и семейство моделей Gemma. Полное описание можно найти на карточке модели Gemma .

Информация о реализации

Аппаратное обеспечение и платформы, используемые во время обучения

Как и Gemma , RecurrentGemma обучалась на TPUv5e с использованием JAX и ML Pathways .

Информация об оценке

Результаты тестов

Подход к оценке

Эти модели оценивались на основе большой коллекции различных наборов данных и показателей, охватывающих различные аспекты генерации текста:

Результаты оценки

Контрольный показатель Метрика Рекуррентная Джемма 2B Рекуррентная Джемма 9B
ММЛУ 5 выстрелов, топ-1 38,4 60,5
HellaSwag 0 выстрелов 71,0 80,4
ПИКА 0 выстрелов 78,5 81,3
СоциальныеIQA 0 выстрелов 51,8 52,3
BoolQ 0 выстрелов 71,3 80,3
ВиноГранде частичная оценка 67,8 73,6
CommonsenseQA 7-зарядный 63,7 73,2
OpenBookQA 47,2 51,8
АРК-е 72,9 78,8
АРК-с 42,3 52,0
TriviaQA 5 выстрелов 52,5 70,5
Естественные вопросы 5 выстрелов 11,5 21,7
HumanEval пройти@1 21,3 31,1
МБПП 3 выстрела 28,8 42,0
GSM8K май@1 13.4 42,6
МАТЕМАТИКА 4 выстрела 11,0 23,8
AGIEval 23,8 39,3
БОЛЬШАЯ Скамья 35,3 55,2
Средний 44,6 56,1

Этика и безопасность

Оценка этики и безопасности

Подход к оценке

Наши методы оценки включают структурированные оценки и внутреннее групповое тестирование соответствующих политик в отношении контента. «Красная команда» проводилась несколькими разными командами, каждая из которых преследовала разные цели и показатели человеческой оценки. Эти модели оценивались по ряду различных категорий, имеющих отношение к этике и безопасности, в том числе:

  • Безопасность текстового контента: человеческая оценка подсказок, охватывающих политику безопасности, включая сексуальное насилие и эксплуатацию детей, домогательства, насилие и жестокость, а также разжигание ненависти.
  • Вред от представления текста в тексте: сравнивайте с соответствующими наборами академических данных, такими как WinoBias и BBQ Dataset.
  • Запоминание: Автоматизированная оценка запоминания данных обучения, включая риск раскрытия информации, позволяющей установить личность.
  • Крупномасштабный вред: испытания на «опасные возможности», такие как химические, биологические, радиологические и ядерные (ХБРЯ) риски; а также тесты на убеждение и обман, кибербезопасность и автономное копирование.

Результаты оценки

Результаты оценок этики и безопасности находятся в пределах допустимых порогов соответствия внутренней политике по таким категориям, как безопасность детей, безопасность контента, репрезентативный вред, запоминание, крупномасштабный вред. Помимо надежных внутренних оценок, здесь показаны результаты известных тестов безопасности, таких как BBQ, Winogender, WinoBias, RealToxicity и TruthfulQA.

Контрольный показатель Метрика Рекуррентная Джемма 2B Рекуррентная Джемма 2Б ИТ Рекуррентная Джемма 9B Рекуррентная Джемма 9Б ИТ
Реальная токсичность среднее 9,8 7.60 10.3 8,8
СМЕЛЫЙ 39,3 52,3 39,8 47,9
CrowS-пары топ-1 41,1 43,4 38,7 39,5
Барбекю Амбиг топ-1 62,6 71,1 95,9 67,1
Барбекю топ-1 58,4 50,8 78,6 78,9
Виногендер топ-1 55,1 54,7 59,0 64,0
ПравдивыйQA 35,1 42,7 38,6 47,7
ВиноБиас 1_2 58,4 56,4 61,5 60,6
ВиноБиас 2_2 90,0 75,4 90,2 90,3
Токсиген 56,7 50,0 58,8 64,5

Использование модели и ограничения

Известные ограничения

Эти модели имеют определенные ограничения, о которых следует знать пользователям:

  • Данные обучения
    • Качество и разнообразие обучающих данных существенно влияют на возможности модели. Погрешности или пробелы в обучающих данных могут привести к ограничениям ответов модели.
    • Объем набора обучающих данных определяет предметные области, с которыми модель может эффективно работать.
  • Контекст и сложность задачи
    • LLM лучше справляются с задачами, которые можно сформулировать с помощью четких подсказок и инструкций. Открытые или очень сложные задачи могут оказаться сложными.
    • На производительность модели может влиять количество предоставленного контекста (более длинный контекст обычно приводит к лучшим результатам до определенного момента).
  • Языковая двусмысленность и нюансы
    • Естественный язык по своей сути сложен. Магистрам права может быть сложно уловить тонкие нюансы, сарказм или образный язык.
  • Фактическая точность
    • LLM генерируют ответы на основе информации, которую они извлекли из наборов обучающих данных, но они не являются базами знаний. Они могут генерировать неправильные или устаревшие фактические утверждения.
  • Здравый смысл
    • LLM полагаются на статистические закономерности в языке. Им может не хватать способности применять здравый смысл в определенных ситуациях.

Этические соображения и риски

Разработка больших языковых моделей (LLM) вызывает ряд этических проблем. При создании открытой модели мы тщательно учли следующее:

  • Предвзятость и справедливость
    • LLM, обучающиеся на крупномасштабных текстовых данных из реального мира, могут отражать социокультурные предубеждения, заложенные в учебные материалы. Эти модели подверглись тщательному изучению, описана предварительная обработка входных данных и апостериорные оценки, представленные на этой карте.
  • Дезинформация и неправильное использование
  • Прозрачность и подотчетность
    • В этой карточке модели обобщаются подробности об архитектуре моделей, возможностях, ограничениях и процессах оценки.
    • Ответственно разработанная открытая модель дает возможность делиться инновациями, делая технологию LLM доступной для разработчиков и исследователей в экосистеме искусственного интеллекта.

Выявленные риски и меры по их снижению:

  • Сохранение предвзятостей: рекомендуется осуществлять непрерывный мониторинг (с использованием показателей оценки, человеческого анализа) и исследование методов устранения предвзятости во время обучения модели, точной настройки и других вариантов использования.
  • Создание вредного контента. Механизмы и рекомендации по обеспечению безопасности контента имеют важное значение. Разработчикам рекомендуется проявлять осторожность и внедрять соответствующие меры безопасности контента, основанные на их конкретной политике в отношении продуктов и сценариях использования приложений.
  • Неправомерное использование в злонамеренных целях. Технические ограничения, а также обучение разработчиков и конечных пользователей могут помочь предотвратить вредоносное применение LLM. Предоставляются образовательные ресурсы и механизмы отчетности, позволяющие пользователям сообщать о неправомерном использовании. Запрещенное использование моделей Gemma указано в наших условиях использования .
  • Нарушения конфиденциальности: модели обучались на данных, отфильтрованных для удаления PII (личной информации). Разработчикам рекомендуется соблюдать правила конфиденциальности и использовать методы сохранения конфиденциальности.

Использование по назначению

Приложение

Открытые модели большого языка (LLM) имеют широкий спектр приложений в различных отраслях и областях. Следующий список потенциальных применений не является исчерпывающим. Цель этого списка — предоставить контекстную информацию о возможных вариантах использования, которые создатели модели рассматривали как часть обучения и разработки модели.

  • Создание контента и общение
    • Генерация текста. Эти модели можно использовать для создания творческих текстовых форматов, таких как стихи, сценарии, код, маркетинговые тексты, черновики электронных писем и т. д.
    • Чат-боты и диалоговый искусственный интеллект: эффективные диалоговые интерфейсы для обслуживания клиентов, виртуальных помощников или интерактивных приложений.
    • Обобщение текста: создавайте краткие резюме текстового корпуса, исследовательских работ или отчетов.
  • Исследования и образование
    • Исследования в области обработки естественного языка (НЛП). Эти модели могут служить для исследователей основой для экспериментов с методами НЛП, разработки алгоритмов и внесения вклада в развитие этой области.
    • Инструменты изучения языка: поддержка интерактивного изучения языка, помощь в исправлении грамматики или предоставление практики письма.
    • Исследование знаний. Помогите исследователям изучить большие объемы текста, создавая резюме или отвечая на вопросы по конкретным темам.

Преимущества

На момент выпуска это семейство моделей предоставляет высокопроизводительные реализации моделей открытого большого языка, разработанные с нуля для ответственной разработки ИИ по сравнению с моделями аналогичного размера.

Используя эталонные показатели оценки, описанные в этом документе, эти модели показали, что они обеспечивают более высокую производительность по сравнению с другими альтернативами открытой модели сопоставимого размера.

В частности, модели RecurrentGemma достигают производительности, сравнимой с моделями Gemma, но работают быстрее при выводе и требуют меньше памяти, особенно для длинных последовательностей.