Карточка модели Джеммы 2

Страница модели : Джемма

Ресурсы и техническая документация :

Условия использования : Условия

Авторы : Гугл

Информация о модели

Краткое описание и краткое определение входов и выходов.

Описание

Gemma — это семейство легких современных открытых моделей от Google, созданных на основе тех же исследований и технологий, которые использовались при создании моделей Gemini. Это большие языковые модели для преобразования текста в текст, предназначенные только для декодера, доступные на английском языке, с открытыми весами как для предварительно обученных вариантов, так и для вариантов, настроенных с помощью инструкций. Модели Gemma хорошо подходят для различных задач по созданию текста, включая ответы на вопросы, обобщение и рассуждение. Их относительно небольшой размер позволяет развертывать их в средах с ограниченными ресурсами, таких как ноутбук, настольный компьютер или собственная облачная инфраструктура, демократизируя доступ к современным моделям искусственного интеллекта и помогая стимулировать инновации для всех.

Входы и выходы

  • Входные данные: текстовая строка, например вопрос, подсказка или документ, который нужно суммировать.
  • Выходные данные: сгенерированный текст на английском языке в ответ на вводимые данные, например ответ на вопрос или краткое изложение документа.

Цитирование

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Данные модели

Данные, используемые для обучения модели, и способ обработки данных.

Набор обучающих данных

Эти модели были обучены на наборе текстовых данных, включающем широкий спектр источников. Модель 27B была обучена на 13 триллионах токенов, модель 9B — на 8 триллионах токенов, а модель 2B — на 2 триллионах токенов. Вот ключевые компоненты:

  • Веб-документы: разнообразная коллекция веб-текста гарантирует, что модель будет доступна для широкого спектра лингвистических стилей, тем и словаря. Преимущественно англоязычный контент.
  • Код. Представление модели в коде помогает ей изучить синтаксис и шаблоны языков программирования, что улучшает ее способность генерировать код или понимать вопросы, связанные с кодом.
  • Математика. Обучение математическому тексту помогает модели научиться логическим рассуждениям, символическому представлению и решать математические запросы.

Сочетание этих разнообразных источников данных имеет решающее значение для обучения мощной языковой модели, которая может обрабатывать широкий спектр различных задач и текстовых форматов.

Предварительная обработка данных

Вот ключевые методы очистки и фильтрации данных, применяемые к обучающим данным:

  • Фильтрация CSAM: строгая фильтрация CSAM (материалов о сексуальном насилии над детьми) применялась на нескольких этапах процесса подготовки данных, чтобы гарантировать исключение вредного и незаконного контента.
  • Фильтрация конфиденциальных данных. Чтобы сделать предварительно обученные модели Gemma безопасными и надежными, использовались автоматизированные методы для фильтрации определенной личной информации и других конфиденциальных данных из обучающих наборов.
  • Дополнительные методы: Фильтрация по качеству и безопасности контента в соответствии с нашими политиками .

Информация о реализации

Подробности о внутреннем устройстве модели.

Аппаратное обеспечение

Джемма обучалась с использованием оборудования тензорного процессора (TPU) последнего поколения (TPUv5p).

Обучение больших языковых моделей требует значительных вычислительных мощностей. TPU, разработанные специально для матричных операций, распространенных в машинном обучении, предлагают в этой области несколько преимуществ:

  • Производительность: TPU специально разработаны для выполнения огромных вычислений, связанных с обучением LLM. Они могут значительно ускорить обучение по сравнению с процессорами.
  • Память: TPU часто оснащены большим объемом памяти с высокой пропускной способностью, что позволяет обрабатывать большие модели и пакеты во время обучения. Это может привести к улучшению качества модели.
  • Масштабируемость: модули TPU (большие кластеры TPU) предоставляют масштабируемое решение для обработки растущей сложности больших моделей фундамента. Вы можете распределить обучение между несколькими устройствами TPU для более быстрой и эффективной обработки.
  • Экономическая эффективность. Во многих сценариях TPU могут обеспечить более экономичное решение для обучения больших моделей по сравнению с инфраструктурой на базе ЦП, особенно если учесть время и ресурсы, сэкономленные за счет более быстрого обучения.
  • Эти преимущества соответствуют обязательствам Google работать устойчиво .

Программное обеспечение

Обучение проводилось с использованием JAX и ML Pathways .

JAX позволяет исследователям использовать преимущества оборудования последнего поколения, включая TPU, для более быстрого и эффективного обучения больших моделей.

ML Pathways — это последняя попытка Google создать системы искусственного интеллекта, способные обобщать решение нескольких задач. Это особенно подходит для базовых моделей , включая большие языковые модели, подобные этой.

Вместе JAX и ML Pathways используются, как описано в статье о семействе моделей Gemini ; «Модель программирования Jax и Pathways с единым контроллером позволяет одному процессу Python управлять всем процессом обучения, значительно упрощая рабочий процесс разработки».

Оценка

Метрики и результаты оценки модели.

Результаты тестов

Эти модели оценивались на основе большой коллекции различных наборов данных и показателей, охватывающих различные аспекты генерации текста:

Контрольный показатель Метрика Джемма 2 PT 2B Джемма 2 PT 9B Джемма 2 PT 27B
ММЛУ 5 выстрелов, топ-1 51,3 71,3 75,2
HellaSwag 10 выстрелов 73,0 81,9 86,4
ПИКА 0 выстрелов 77,8 81,7 83,2
СоциальныеIQA 0 выстрелов 51,9 53,4 53,7
BoolQ 0 выстрелов 72,5 84,2 84,8
ВиноГранде частичная оценка 70,9 80,6 83,7
АРК-е 0 выстрелов 80,1 88,0 88,6
АРК-с 25 выстрелов 55,4 68,4 71,4
ВикторинаQA 5 выстрелов 59,4 76,6 83,7
Естественные вопросы 5 выстрелов 16,7 29,2 34,5
HumanEval пройти@1 17,7 40,2 51,8
МБПП 3 выстрела 29,6 52,4 62,6
GSM8K 5 выстрелов, май@1 23,9 68,6 74,0
МАТЕМАТИКА 4 выстрела 15,0 36,6 42,3
AGIEval 3-5 выстрелов 30,6 52,8 55,1
УРОНИТЬ 3 выстрела, F1 52,0 69,4 72,2
БОЛЬШАЯ Скамья 3 выстрела, ЦТ 41,9 68,2 74,9

Этика и безопасность

Подход и результаты оценки этики и безопасности.

Подход к оценке

Наши методы оценки включают структурированные оценки и внутреннее групповое тестирование соответствующих политик в отношении контента. «Красная команда» проводилась несколькими разными командами, каждая из которых преследовала разные цели и показатели человеческой оценки. Эти модели оценивались по ряду различных категорий, имеющих отношение к этике и безопасности, в том числе:

  • Безопасность текстового контента: человеческая оценка подсказок, охватывающих политику безопасности, включая сексуальное насилие и эксплуатацию детей, домогательства, насилие и жестокость, а также разжигание ненависти.
  • Репрезентативный вред при преобразовании текста в текст: сравнение с соответствующими наборами академических данных, такими как WinoBias и BBQ Dataset .
  • Запоминание: Автоматизированная оценка запоминания данных обучения, включая риск раскрытия информации, позволяющей установить личность.
  • Крупномасштабный вред: испытания на «опасные возможности», такие как химические, биологические, радиологические и ядерные (ХБРЯ) риски.

Результаты оценки

Результаты оценок этики и безопасности находятся в пределах допустимых порогов соответствия внутренней политике по таким категориям, как безопасность детей, безопасность контента, репрезентативный вред, запоминание, крупномасштабный вред. Помимо надежных внутренних оценок, здесь показаны результаты известных тестов безопасности, таких как BBQ, BOLD, Winogender, Winobias, RealToxicity и TruthfulQA.

Джемма 2.0

Контрольный показатель Метрика Джемма 2 ИТ 2Б Джемма 2 ИТ 9Б Джемма 2 ИТ 27Б
Реальная токсичность средний 8.16 8.25 8,84
CrowS-пары топ-1 37,67 37,47 36,67
Барбекю Амбиг 1 выстрел, топ-1 83.20 88,58 85,99
Барбекю топ-1 69,31 82,67 86,94
Виногендер топ-1 52,91 79,17 77,22
ПравдивыйQA 43,72 50,27 51,60
Винобиас 1_2 59,28 78.09 81,94
Винобиас 2_2 88,57 95,32 97,22
Токсиген 48,32 39.30 38,42

Оценка опасных возможностей

Подход к оценке

Мы оценили ряд опасных возможностей:

  • Наступательная кибербезопасность. Чтобы оценить потенциал неправомерного использования модели в контексте кибербезопасности, мы использовали как общедоступные платформы Capture-the-Flag (CTF), такие как InterCode-CTF и Hack the Box, так и разработанные внутри компании задачи CTF. Эти оценки измеряют способность модели использовать уязвимости и получать несанкционированный доступ в моделируемых средах.
  • Самораспространение. Мы оценили способность модели к самораспространению, разработав задачи, включающие получение ресурсов, выполнение кода и взаимодействие с удаленными системами. Эти оценки оценивают способность модели к независимому воспроизведению и распространению.
  • Убеждение: Чтобы оценить способность модели убеждать и обманывать, мы провели исследования убеждения на людях. В этих исследованиях использовались сценарии, которые измеряли способность модели устанавливать взаимопонимание, влиять на убеждения и вызывать конкретные действия от участников-людей.

Результаты оценки

Все оценки подробно описаны в Evaluating Frontier Models for Dangerous Capabilities и кратко в техническом отчете Gemma 2 .

Оценка Возможность Джемма 2 ИТ 27Б
ИнтерКод-CTF Наступательная кибербезопасность 34/76 испытаний
Внутренний CTF Наступательная кибербезопасность 1/13 испытаний
Взломать коробку Наступательная кибербезопасность 0/13 испытаний
Раннее предупреждение о самораспространении Самораспространение 1/10 испытаний
Очарование наступление Убеждение Процент участников, согласившихся: 81% было интересно, 75% хотели бы поговорить снова, 80% установили личный контакт.
Нажмите «Ссылки» Убеждение 34% участников
Найти информацию Убеждение 9% участников
Запустить код Убеждение 11% участников
Деньги говорят Убеждение £3,72 — среднее пожертвование
Паутина лжи Убеждение 18% означает сдвиг в сторону правильного убеждения, 1% означает сдвиг в сторону неправильного убеждения.

Использование и ограничения

Эти модели имеют определенные ограничения, о которых следует знать пользователям.

Предполагаемое использование

Открытые модели большого языка (LLM) имеют широкий спектр приложений в различных отраслях и областях. Следующий список потенциальных применений не является исчерпывающим. Цель этого списка — предоставить контекстную информацию о возможных вариантах использования, которые создатели модели рассматривали как часть обучения и разработки модели.

  • Создание контента и коммуникация
    • Генерация текста. Эти модели можно использовать для создания творческих текстовых форматов, таких как стихи, сценарии, код, маркетинговые тексты и черновики электронных писем.
    • Чат-боты и диалоговый искусственный интеллект: эффективные диалоговые интерфейсы для обслуживания клиентов, виртуальных помощников или интерактивных приложений.
    • Обобщение текста: создавайте краткие изложения текстового корпуса, исследовательских работ или отчетов.
  • Исследования и образование
    • Исследования обработки естественного языка (НЛП). Эти модели могут служить для исследователей основой для экспериментов с методами НЛП, разработки алгоритмов и внесения вклада в развитие этой области.
    • Инструменты изучения языка: поддержка интерактивного изучения языка, помощь в исправлении грамматики или предоставление практики письма.
    • Исследование знаний. Помогите исследователям исследовать большие объемы текста, создавая резюме или отвечая на вопросы по конкретным темам.

Ограничения

  • Данные обучения
    • Качество и разнообразие обучающих данных существенно влияют на возможности модели. Погрешности или пробелы в обучающих данных могут привести к ограничениям ответов модели.
    • Объем набора обучающих данных определяет предметные области, с которыми модель может эффективно работать.
  • Контекст и сложность задачи
    • LLM лучше справляются с задачами, которые можно сформулировать с помощью четких подсказок и инструкций. Открытые или очень сложные задачи могут оказаться сложными.
    • На производительность модели может влиять количество предоставленного контекста (более длинный контекст обычно приводит к лучшим результатам до определенного момента).
  • Языковая двусмысленность и нюансы
    • Естественный язык по своей сути сложен. Магистрам права может быть сложно уловить тонкие нюансы, сарказм или образный язык.
  • Фактическая точность
    • LLM генерируют ответы на основе информации, полученной из наборов обучающих данных, но они не являются базами знаний. Они могут генерировать неправильные или устаревшие фактические утверждения.
  • Здравый смысл
    • LLM полагаются на статистические закономерности в языке. Им может не хватать способности применять здравый смысл в определенных ситуациях.

Этические соображения и риски

Разработка больших языковых моделей (LLM) вызывает ряд этических проблем. При создании открытой модели мы тщательно учли следующее:

  • Предвзятость и справедливость
    • LLM, обученные на крупномасштабных текстовых данных из реального мира, могут отражать социокультурные предубеждения, заложенные в учебные материалы. Эти модели подверглись тщательному изучению, описана предварительная обработка входных данных и апостериорные оценки, представленные на этой карте.
  • Дезинформация и неправильное использование
    • LLM могут быть использованы не по назначению для создания ложного, вводящего в заблуждение или вредного текста.
    • Предоставляются рекомендации по ответственному использованию модели, см. набор инструментов Responsible Generative AI Toolkit .
  • Прозрачность и подотчетность:
    • В этой карточке модели обобщаются подробности об архитектуре моделей, возможностях, ограничениях и процессах оценки.
    • Ответственно разработанная открытая модель дает возможность делиться инновациями, делая технологию LLM доступной для разработчиков и исследователей в экосистеме искусственного интеллекта.

Выявленные риски и меры по их снижению:

  • Сохранение предвзятостей: рекомендуется осуществлять непрерывный мониторинг (с использованием показателей оценки, человеческого анализа) и исследование методов устранения предвзятости во время обучения модели, точной настройки и других вариантов использования.
  • Создание вредного контента. Механизмы и рекомендации по обеспечению безопасности контента имеют важное значение. Разработчикам рекомендуется проявлять осторожность и внедрять соответствующие меры безопасности контента, основанные на их конкретной политике в отношении продуктов и сценариях использования приложений.
  • Неправомерное использование в злонамеренных целях. Технические ограничения, а также обучение разработчиков и конечных пользователей могут помочь предотвратить вредоносное применение LLM. Предоставляются образовательные ресурсы и механизмы отчетности, позволяющие пользователям сообщать о неправомерном использовании. Запрещенное использование моделей Gemma изложено в Политике запрещенного использования Gemma .
  • Нарушения конфиденциальности: модели обучались на данных, отфильтрованных для удаления PII (личной информации). Разработчикам рекомендуется соблюдать правила конфиденциальности и использовать методы сохранения конфиденциальности.

Преимущества

На момент выпуска это семейство моделей предоставляет высокопроизводительные реализации моделей открытого большого языка, разработанные с нуля для ответственной разработки ИИ по сравнению с моделями аналогичного размера.

Используя эталонные показатели оценки, описанные в этом документе, эти модели показали, что они обеспечивают более высокую производительность по сравнению с другими альтернативами открытой модели сопоставимого размера.