Служба встраивания в Gemini API генерирует современные встраивания для слов, фраз и предложений. Полученные вложения затем можно использовать для задач НЛП, таких как семантический поиск, классификация текста и кластеризация, а также многие другие. На этой странице описывается, что такое внедрение, и освещаются некоторые ключевые варианты использования службы внедрения, которые помогут вам начать работу.
Что такое вложения?
Встраивание текста — это метод обработки естественного языка (NLP), который преобразует текст в числовые векторы. Вложения улавливают семантическое значение и контекст, в результате чего текст со схожим значением имеет более близкие вложения. Например, предложения «Я отвез свою собаку к ветеринару» и «Я отвез свою кошку к ветеринару» будут иметь вложения, близкие друг к другу в векторном пространстве, поскольку оба они описывают схожий контекст.
Это важно, поскольку открывает доступ ко многим алгоритмам, которые могут работать с векторами, но не непосредственно с текстом.
Вы можете использовать эти вложения или векторы, чтобы сравнивать разные тексты и понимать, как они связаны. Например, если вложения текста «кошка» и «собака» расположены близко друг к другу, вы можете сделать вывод, что эти слова схожи по значению или контексту, или и то, и другое. Эта возможность позволяет использовать различные варианты использования, описанные в следующем разделе.
Случаи использования
Встраивание текста обеспечивает множество вариантов использования НЛП. Например:
- Поиск информации. Цель состоит в том, чтобы получить семантически похожий текст по фрагменту входного текста. Система поиска информации может поддерживать различные приложения, такие как семантический поиск, ответы на вопросы или обобщение. Пример можно найти в блокноте поиска документов .
- Классификация. Вы можете использовать внедрения для обучения модели классификации документов по категориям. Например, если вы хотите классифицировать комментарии пользователей как отрицательные или положительные, вы можете использовать службу внедрения, чтобы получить векторное представление каждого комментария для обучения классификатора. Для получения более подробной информации обратитесь к примеру классификатора Gemini .
- Кластеризация: сравнение векторов текста может показать, насколько они похожи или различны. Эту функцию можно использовать для обучения модели кластеризации, которая группирует похожий текст или документы вместе , а также для обнаружения аномалий в ваших данных .
- Векторная база данных: вы можете хранить сгенерированные внедрения в векторной базе данных, чтобы повысить точность и эффективность вашего приложения НЛП. На этой странице вы узнаете, как использовать векторную базу данных для перевода текстовых подсказок в числовые векторы .
Упругие вложения
Модель Gemini Text Embedding , начиная с text-embedding-004
, предлагает эластичные размеры внедрения до 768. Вы можете использовать эластичные внедрения для создания меньших размеров вывода и потенциально сэкономить затраты на вычисления и хранение с незначительной потерей производительности.
Что дальше
- Если вы готовы начать разработку, вы можете найти полный работоспособный код в кратких руководствах по Python , Go , Node.js и Dart (Flutter) .