Джемма открытые модели
Семейство легких современных открытых моделей, созданных на основе тех же исследований и технологий, которые использовались при создании моделей Gemini.
Представляем
Джемма 2
Gemma 2, переработанная для обеспечения высочайшей производительности и непревзойденной эффективности, оптимизируется для молниеносного вывода на разнообразном оборудовании.
5 выстрелов
ММЛУ
Тест MMLU — это тест, который измеряет широту знаний и способность решать проблемы, приобретенные большими языковыми моделями во время предварительного обучения.
25 выстрелов
АРК-С
Тест ARC-c представляет собой более специализированную подгруппу набора данных ARC-e, содержащую только вопросы, на которые неправильно ответили обычные алгоритмы (база поиска и совпадение слов).
5 выстрелов
GSM8K
Тест GSM8K проверяет способность языковой модели решать математические задачи на уровне начальной школы, которые часто требуют нескольких этапов рассуждения.
3-5 выстрелов
AGIEval
Тест AGIEval проверяет общий интеллект языковой модели, используя вопросы, полученные из реальных экзаменов, предназначенных для оценки интеллектуальных способностей человека.
3 выстрела, ЦТ
BBH
Тест BBH (BIG-Bench Hard) фокусируется на задачах, которые выходят за рамки возможностей существующих языковых моделей, проверяя их пределы в различных областях рассуждения и понимания.
3 выстрела, F1
УРОНИТЬ
DROP — это тест на понимание прочитанного, который требует дискретного рассуждения по абзацам.
5 выстрелов
Виногранде
Тест Виногранде проверяет способность языковой модели решать неоднозначные задачи с заполнением пробелов с помощью двоичных опций, требующие обобщенных рассуждений, основанных на здравом смысле.
10 выстрелов
HellaSwag
Тест HellaSwag проверяет способность языковой модели понимать и применять здравый смысл, выбирая наиболее логичный конец истории.
4 выстрела
МАТЕМАТИКА
MATH оценивает способность языковой модели решать сложные математические словесные задачи, требующие рассуждения, многоэтапного решения задач и понимания математических концепций.
0 выстрелов
АРК-е
Тест ARC-e проверяет продвинутые навыки ответа на вопросы языковой модели с помощью естественных научных вопросов уровня начальной школы с несколькими вариантами ответов.
0 выстрелов
ПИКА
Тест PIQA проверяет способность языковой модели понимать и применять физические знания, отвечая на вопросы о повседневных физических взаимодействиях.
0 выстрелов
СИКА
Тест SIQA оценивает понимание языковой моделью социальных взаимодействий и социального здравого смысла, задавая вопросы о действиях людей и их социальных последствиях.
0 выстрелов
Булк
Тест BoolQ проверяет способность языковой модели отвечать на естественные вопросы типа «да/нет», проверяя способность модели выполнять реальные задачи вывода на естественном языке.
5 выстрелов
TriviaQA
Тест TriviaQA проверяет навыки понимания прочитанного с помощью тройки вопросов-ответов-доказательств.
5 выстрелов
НК
Тест NQ (Естественные вопросы) проверяет способность языковой модели находить и понимать ответы в целых статьях Википедии, моделируя реальные сценарии ответов на вопросы.
пройти@1
HumanEval
Тест HumanEval проверяет способность языковой модели генерировать код, оценивая, проходят ли ее решения функциональные модульные тесты для решения проблем программирования.
3 выстрела
МБПП
Тест MBPP проверяет способность языковой модели решать основные задачи программирования на Python, уделяя особое внимание фундаментальным концепциям программирования и использованию стандартной библиотеки.
100%
75%
50%
25%
0%
100%
75%
50%
25%
0%
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
ЛЛАМА 3
8Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
ЛЛАМА 3
8Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
ЛЛАМА 3
8Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
ЛЛАМА 3
8Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
ЛЛАМА 3
8Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
ЛЛАМА 3
8Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
ЛЛАМА 3
8Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
ЛЛАМА 3
8Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
Джемма 1
2,5Б
Джемма 2
2.6Б
Мистраль
7Б
Джемма 1
7Б
Джемма 2
9Б
Джемма 2
27Б
*Это тесты для предварительно обученных моделей. Подробную информацию о производительности с другими методологиями см. в техническом отчете.