Карта модели EmbeddingGemma

Страница модели : EmbeddingGemma

Ресурсы и техническая документация :

Условия использования : Условия

Авторы : Google DeepMind

Информация о модели

Краткое описание и определение входов и выходов.

Описание

EmbeddingGemma — это современная для своего размера открытая модель встраивания от Google с 300 млн параметров, созданная на основе Gemma 3 (с инициализацией T5Gemma) и тех же исследований и технологий, которые используются для создания моделей Gemini. EmbeddingGemma создаёт векторные представления текста, что делает её идеальным инструментом для задач поиска и извлечения данных, включая классификацию, кластеризацию и поиск по семантическому сходству. Эта модель была обучена на данных более чем на 100 языках.

Небольшой размер и ориентация на устройство позволяют развертывать решение в средах с ограниченными ресурсами, такими как мобильные телефоны, ноутбуки или настольные компьютеры, что упрощает доступ к современным моделям ИИ и способствует инновациям для всех.

Более подробную техническую информацию можно найти в нашей статье: EmbeddingGemma: мощные и легкие текстовые представления .

Входы и выходы

  • Вход:

    • Текстовая строка, например вопрос, подсказка или документ для встраивания
    • Максимальная длина входного контекста 2 КБ
  • Выход:

    • Числовые векторные представления входных текстовых данных
    • Размер выходного вложения составляет 768, доступны меньшие варианты (512, 256 или 128) с помощью обучения представлению Matryoshka (MRL). MRL позволяет пользователям обрезать выходное вложение размером 768 до желаемого размера, а затем повторно нормализовать для эффективного и точного представления.

Цитирование

@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}

Модель данных

Набор данных для обучения

Эта модель была обучена на наборе текстовых данных, включающем широкий спектр источников, общим количеством около 320 миллиардов токенов. Вот её ключевые компоненты:

  • Веб-документы : Разнообразная коллекция веб-текстов обеспечивает модель широким спектром языковых стилей, тем и лексики. Обучающий набор данных включает контент на более чем 100 языках.
  • Код и техническая документация : ознакомление модели с кодом и технической документацией помогает ей изучить структуру и шаблоны языков программирования и специализированного научного контента, что улучшает ее понимание кода и технических вопросов.
  • Синтетические и специализированные данные : Синтетическое обучение данных помогает развить специфические навыки модели. Сюда входят специально подобранные данные для таких задач, как поиск информации, классификация и анализ тональности, что помогает оптимизировать её производительность для распространённых приложений встраивания.

Сочетание этих разнообразных источников данных имеет решающее значение для обучения мощной многоязыковой модели встраивания, способной обрабатывать широкий спектр различных задач и форматов данных.

Предварительная обработка данных

Вот основные методы очистки и фильтрации данных, применяемые к обучающим данным:

  • Фильтрация CSAM: на нескольких этапах процесса подготовки данных применялась строгая фильтрация CSAM (материалов сексуального насилия над детьми), чтобы гарантировать исключение вредоносного и противозаконного контента.
  • Фильтрация конфиденциальных данных: для обеспечения безопасности и надежности предварительно обученных моделей Gemma использовались автоматизированные методы фильтрации определенной личной информации и других конфиденциальных данных из обучающих наборов.
  • Дополнительные методы: Фильтрация на основе качества и безопасности контента в соответствии с нашими политиками .

Разработка модели

Аппаратное обеспечение

EmbeddingGemma обучалась с использованием новейшего поколения оборудования Tensor Processing Unit (TPU) (TPUv5e). Более подробную информацию см. в карточке модели Gemma 3 .

Программное обеспечение

Обучение проводилось с использованием JAX и ML Pathways . Подробнее см. в карточке модели Gemma 3 .

Оценка

Результаты контрольных тестов

Модель была оценена на основе большого количества различных наборов данных и показателей, чтобы охватить разные аспекты понимания текста.

Полная точность контрольной точки

MTEB (Многоязычный, v2)
Размерность Среднее (Задача) Среднее (Тип задачи)
768d 61.15 54.31
512d 60.71 53.89
256д 59.68 53.01
128д 58.23 51.77
MTEB (английский, v2)
Размерность Среднее (Задача) Среднее (Тип задачи)
768d 69.67 65.11
512d 69.18 64.59
256д 68.37 64.02
128д 66.66 62.70
MTEB (Код, v1)
Размерность Среднее (Задача) Среднее (Тип задачи)
768d 68.76 68.76
512d 68.48 68.48
256д 66.74 66.74
128д 62.96 62.96

Контрольно-пропускные пункты QAT

MTEB (Многоязычный, v2)
Квантовая конфигурация (размерность) Среднее (Задача) Среднее (Тип задачи)
Смешанная точность* (768d) 60.69 53.82
Q8_0 (768d) 60.93 53.95
Q4_0 (768d) 60.62 53.61
MTEB (английский, v2)
Квантовая конфигурация (размерность) Среднее (Задача) Среднее (Тип задачи)
Смешанная точность* (768d) 69.32 64.82
Q8_0 (768d) 69.49 64.84
Q4_0 (768d) 69.31 64.65
MTEB (Код, v1)
Квантовая конфигурация (размерность) Среднее (Задача) Среднее (Тип задачи)
Смешанная точность* (768d) 68.03 68.03
Q8_0 (768d) 68.70 68.70
Q4_0 (768d) 67.99 67.99

* Смешанная точность относится к поканальному квантованию с int4 для встраивания, прямой связи и проекционных слоев и int8 для внимания (e4_a8_f4_p4).

Подробные инструкции

EmbeddingGemma может генерировать оптимизированные вложения для различных вариантов использования (например, поиск документов, ответы на вопросы и проверка фактов) или для определенных типов входных данных (запросов или документов) с помощью подсказок, добавляемых к строкам ввода.

Query prompts follow the form task: {task description} | query: where the task description varies by the use case, with the default task description being search result . Document-style prompts follow the form title: {title | "none"} | text: where the title is either none (the default) or the actual title of the document. Note that providing a title, if available, will improve model performance for document prompts but may require manual formatting.

Используйте следующие подсказки в зависимости от вашего варианта использования и типа входных данных. Возможно, они уже доступны в конфигурации EmbeddingGemma выбранной вами платформы моделирования.


Вариант использования (перечисление типов задач)

Описания

Рекомендуемая подсказка

Извлечение (запрос)

Используется для создания внедрений, оптимизированных для поиска документов или извлечения информации.

задача: результат поиска | запрос: {content}

Извлечение (документ)

заголовок: {title | "none"} | текст: {content}

Вопрос Ответ

задача: ответ на вопрос | запрос: {content}

Проверка фактов

задача: проверка фактов | запрос: {content}

Классификация

Используется для создания вложений, оптимизированных для классификации текстов в соответствии с предустановленными метками.

задача: классификация | запрос: {content}

Кластеризация

Используется для создания вложений, оптимизированных для кластеризации текстов на основе их сходства.

задача: кластеризация | запрос: {content}

Семантическое сходство

Используется для создания вложений, оптимизированных для оценки схожести текста. Не предназначено для поиска.

задача: сходство предложений | запрос: {content}

Извлечение кода

Используется для извлечения блока кода на основе запроса на естественном языке, например, для сортировки массива или обратного сортирования связанного списка . Вложения блоков кода вычисляются с помощью функции retrieval_document.

задача: извлечение кода | запрос: {content}

Использование и ограничения

Эти модели имеют определенные ограничения, о которых следует знать пользователям.

Предполагаемое использование

Открытые модели встраивания имеют широкий спектр применения в различных отраслях и областях. Приведённый ниже список потенциальных вариантов использования не является исчерпывающим. Цель этого списка — предоставить контекстную информацию о возможных вариантах использования, которые создатели модели рассматривали в рамках её обучения и разработки.

  • Семантическое сходство : оптимизированные для оценки сходства текста вставки, такие как рекомендательные системы и обнаружение дубликатов.
  • Классификация : оптимизированные вставки для классификации текстов в соответствии с предустановленными метками, такими как анализ настроений и обнаружение спама.
  • Кластеризация : оптимизированные вставки для кластеризации текстов на основе их сходства, например, организация документа, маркетинговые исследования и обнаружение аномалий.
  • Извлечение

    • Документ : встраивание, оптимизированное для поиска документов, например, индексация статей, книг или веб-страниц для поиска.
    • Запрос : встраивание, оптимизированное для общих поисковых запросов, таких как пользовательский поиск
    • Запрос кода : встраивание, оптимизированное для извлечения блоков кода на основе запросов на естественном языке, таких как предложения кода и поиск
  • Вопросы и ответы : встраивание вопросов в систему вопросов и ответов, оптимизированное для поиска документов, которые дают ответ на вопрос, например, чат.

  • Fact Verification : Embeddings for statements that need to be verified, optimized for retrieving documents that contain evidence supporting or refuting the statement, such as automated fact-checking systems.

Ограничения

  • Данные обучения

    • Качество и разнообразие обучающих данных существенно влияют на возможности модели. Смещения или пробелы в обучающих данных могут привести к ограничениям в отклике модели.
    • Объем обучающего набора данных определяет предметные области, с которыми модель может эффективно работать.
  • Неоднозначность и нюансы языка

    • Естественный язык по своей природе сложен. Модели могут испытывать трудности с восприятием тонких нюансов, сарказма или образного языка.

Этические соображения и риски

Выявленные риски и меры по их снижению:

  • Сохранение предвзятости : поощряется непрерывный мониторинг (с использованием оценочных показателей, человеческого анализа) и исследование методов устранения предвзятости во время обучения модели, тонкой настройки и других вариантов использования.
  • Неправомерное использование в вредоносных целях : Технические ограничения и обучение разработчиков и конечных пользователей могут помочь снизить риск вредоносного использования встроенных компонентов. Пользователям предоставляются образовательные ресурсы и механизмы сообщения о неправомерном использовании. Запрещенное использование моделей Gemma описано в Политике Gemma в отношении запрещенного использования .
  • Нарушения конфиденциальности : модели обучались на данных, отфильтрованных для удаления определённой личной информации и других конфиденциальных данных. Разработчикам рекомендуется соблюдать правила конфиденциальности, используя методы её сохранения.

Преимущества

На момент выпуска это семейство моделей представляет собой высокопроизводительные реализации открытых встраиваемых моделей, разработанные с нуля для ответственной разработки ИИ по сравнению с моделями аналогичного размера. Используя оценочные метрики, описанные в настоящем документе, эти модели продемонстрировали превосходную производительность по сравнению с другими альтернативными открытыми моделями сопоставимого размера.