Gemini — это семейство генеративных моделей искусственного интеллекта, которые позволяют разработчикам создавать контент и решать проблемы. Эти модели разработаны и обучены для обработки как текста, так и изображений в качестве входных данных. В этом руководстве представлена информация о каждом варианте модели, которая поможет вам решить, какая из них лучше всего подходит для вашего случая использования.
Безопасность и использование по назначению
Генеративные модели искусственного интеллекта — это мощные инструменты, но они не лишены своих ограничений. Их универсальность и применимость иногда могут привести к неожиданным результатам, например, к неточным, предвзятым или оскорбительным результатам. Постобработка и тщательная ручная оценка необходимы для ограничения риска вреда от таких результатов. Дополнительные рекомендации по безопасному использованию см. в руководстве по безопасности .
Модели, предоставляемые Gemini API, можно использовать для широкого спектра приложений генеративного искусственного интеллекта и обработки естественного языка (NLP). Использование этих функций доступно только через Gemini API или веб-приложение Google AI Studio. Использование вами Gemini API также регулируется Политикой запрещенного использования генеративного искусственного интеллекта и условиями обслуживания Gemini API .
Варианты модели
Gemini API предлагает различные модели, оптимизированные для конкретных случаев использования. Вот краткий обзор доступных вариантов Gemini:
Вариант модели | Вход(ы) | Выход | Оптимизирован для |
---|---|---|---|
Близнецы 1.5 Pro (предварительная версия) | Аудио, изображения и текст | Текст | Задачи рассуждения, включая (но не ограничиваясь ими) генерацию кода и текста, редактирование текста, решение проблем, извлечение и генерацию данных. |
Близнецы 1.5 Flash (предварительный просмотр) | Аудио, изображения и текст | Текст | Быстрая и универсальная производительность при выполнении самых разных задач. |
Близнецы 1.0 Про | Текст | Текст | Задачи на естественном языке, многоходовой текстовый и кодовый чат, а также генерация кода |
Близнецы 1.0 Про Видение | Изображения и текст | Текст | Производительность оптимизирована для задач, связанных с визуальными эффектами, таких как создание описаний изображений или идентификация объектов на изображениях. |
Встраивание текста | Текст | Встраивание текста | Создавайте эластичные вставки текста с размером до 768 для текста длиной до 2048 токенов. |
Встраивание | Текст | Встраивание текста | Создавайте встраивания текста с 768 измерениями для текста длиной до 2048 токенов. |
АКА | Текст | Текст | Выполнение задач, связанных с присвоением вопросов и ответов, над предоставленным текстом. |
В следующей таблице описаны атрибуты моделей Gemini, общие для всех вариантов модели:
Атрибут | Описание |
---|---|
Данные обучения | Ограничение знаний Близнецов приходится на начало 2023 года. Знания о событиях после этого времени ограничены. |
Поддерживаемые языки | Посмотреть доступные языки |
Настраиваемые параметры модели |
|
Информацию о каждом из этих параметров см. в разделе «Параметры модели» руководства по генеративным моделям.
Близнецы 1.5 Pro (предварительная версия)
Gemini 1.5 Pro — это мультимодальная модель среднего размера, оптимизированная для широкого спектра задач рассуждения, таких как:
- Генерация кода
- Генерация текста
- Редактирование текста
- Решение проблем
- Генерация рекомендаций
- Извлечение информации
- Извлечение или генерация данных
- Создание ИИ-агентов
1.5 Pro может обрабатывать большие объемы данных одновременно, включая 1 час видео, 9,5 часов аудио, кодовые базы с более чем 30 000 строк кода или более 700 000 слов.
1.5 Pro способен решать задачи обучения с нулевым, однократным и небольшим количеством шагов.
Детали модели
Свойство | Описание |
---|---|
Код модели | models/gemini-1.5-pro-latest |
Входы | Аудио, изображения и текст |
Выход | Текст |
Поддерживаемые методы генерации | generateContent |
Лимит входных токенов [**] | 1 048 576 |
Лимит выходных токенов [**] | 8,192 |
Максимальное количество изображений в запросе | 3600 |
Максимальная длина видео | 1 час |
Максимальная длина звука | Примерно 9,5 часов |
Максимальное количество аудиофайлов на запрос | 1 |
Безопасность модели | Автоматически применяемые настройки безопасности, которые настраиваются разработчиками. Дополнительную информацию см. на нашей странице о настройках безопасности . |
Ограничения ставок [*] |
|
Системные инструкции | Поддерживается |
Режим JSON | Поддерживается |
Последняя версия | gemini-1.5-pro-latest |
Последняя стабильная версия | gemini-1.5-pro |
Последнее обновление | апрель 2024 г. |
Gemini 1.5 Flash (превью)
Gemini 1.5 Flash — быстрая и универсальная мультимодальная модель для масштабирования под самые разнообразные задачи.
Детали модели
Свойство | Описание |
---|---|
Код модели | gemini-1.5-flash |
Вход(ы) | Аудио, изображения и текст |
Выход | Текст |
Поддерживаемые методы генерации | generateContent |
Лимит входных токенов [**] | 1 048 576 |
Лимит выходных токенов [**] | 8,192 |
Максимальное количество изображений в запросе | 3600 |
Максимальная длина видео | 1 час |
Максимальная длина звука | Примерно 9,5 часов |
Максимальное количество аудиофайлов на запрос | 1 |
Безопасность модели | Автоматически применяемые настройки безопасности, которые настраиваются разработчиками. Дополнительную информацию см. на нашей странице о настройках безопасности . |
Ограничения ставок [*] |
|
Системные инструкции | Поддерживается |
Режим JSON | Поддерживается |
Последняя версия | gemini-1.5-flash-latest |
Последняя стабильная версия | gemini-1.5-flash |
Близнецы 1.0 Про
Gemini 1.0 Pro — это модель НЛП, которая решает такие задачи, как многоходовой текстовый и кодовый чат, а также генерация кода.
1.0 Pro способен решать задачи обучения с нулевым, однократным и небольшим количеством шагов.
Детали модели
Свойство | Описание |
---|---|
Код модели | models/gemini-pro |
Вход | Текст |
Выход | Текст |
Поддерживаемые методы генерации | generate_content generateContent |
Ограничения ставок [*] |
|
Системные инструкции | Не поддерживается |
Режим JSON | Не поддерживается |
Последняя версия | gemini-1.0-pro-latest |
Последняя стабильная версия | gemini-1.0-pro |
Стабильные версии | gemini-1.0-pro-001 |
Последнее обновление | февраль 2024 г. |
Близнецы 1.0 Про Видение
Gemini 1.0 Pro Vision — это мультимодальная модель с оптимизированной производительностью, которая может выполнять задачи, связанные с визуальными эффектами. Например, Pro Vision 1.0 может генерировать описания изображений, идентифицировать объекты, присутствующие на изображениях, предоставлять информацию о местах или объектах, присутствующих на изображениях, и многое другое.
1.0 Pro Vision способна решать задачи с нулевым, одноразовым и малократным выполнением задач.
Детали модели
Свойство | Описание |
---|---|
Код модели | models/gemini-pro-vision |
Входы | Текст и изображения |
Выход | Текст |
Поддерживаемые методы генерации | generate_content generateContent |
Лимит входных токенов [*] | 12 288 |
Лимит выходных токенов [*] | 4096 |
Максимальный размер изображения | Безлимитный |
Максимальное количество изображений в запросе | 16 |
Максимальная длина видео | 2 минуты |
Максимальное количество видео на запрос | 1 |
Безопасность модели | Автоматически применяемые настройки безопасности, которые настраиваются разработчиками. Дополнительную информацию см. на нашей странице о настройках безопасности . |
Ограничение скорости [*] | 60 запросов в минуту |
Последняя версия | gemini-1.0-pro-vision-latest |
Последняя стабильная версия | gemini-1.0-pro-vision |
Последнее обновление | декабрь 2023 г. |
Встраивание текста и встраивание
Встраивание текста
Вы можете использовать модель внедрения текста для создания внедрений текста для входного текста. Для получения дополнительной информации о модели внедрения текста посетите документацию по внедрению текста в разделе Генеративный ИИ на Vertex AI .
Модель внедрения текста оптимизирована для создания внедрений с 768 измерениями для текста длиной до 2048 токенов. Встраивание текста предлагает размеры эластичного внедрения до 768. Вы можете использовать эластичное внедрение для создания меньших размеров вывода и потенциально сэкономить затраты на вычисления и хранение с незначительной потерей производительности.
Детали модели
Свойство | Описание |
---|---|
Код модели | models/text-embedding-004 ( text-embedding-preview-0409 в Vertex AI ) |
Вход | Текст |
Выход | Встраивание текста |
Лимит входных токенов | 2048 |
Размер выходного размера | 768 |
Поддерживаемые методы генерации | embed_content embedContent |
Безопасность модели | Нет регулируемых настроек безопасности. |
Ограничение скорости [*] | 1500 запросов в минуту |
Последнее обновление | апрель 2024 г. |
Встраивание
Вы можете использовать модель внедрения для создания внедрений текста для входного текста.
Модель внедрения оптимизирована для создания внедрений с 768 измерениями для текста длиной до 2048 токенов.
Встраивание деталей модели
Свойство | Описание |
---|---|
Код модели | models/embedding-001 |
Вход | Текст |
Выход | Встраивание текста |
Лимит входных токенов | 2048 |
Размер выходного размера | 768 |
Поддерживаемые методы генерации | embed_content embedContent |
Безопасность модели | Нет регулируемых настроек безопасности. |
Ограничение скорости [*] | 1500 запросов в минуту |
Последнее обновление | декабрь 2023 г. |
АКА
Вы можете использовать модель AQA для выполнения задач, связанных с атрибутивными вопросами-ответами (AQA), над документом, корпусом или набором отрывков. Модель AQA возвращает ответы на вопросы, основанные на предоставленных источниках, а также оценивает вероятность ответа.
Детали модели
Свойство | Описание |
---|---|
Код модели | models/aqa |
Вход | Текст |
Выход | Текст |
Поддерживаемые методы генерации | GenerateAnswerRequest generateAnswer |
Поддерживаемые языки | Английский |
Лимит входных токенов [**] | 7,168 |
Лимит выходных токенов [**] | 1024 |
Безопасность модели | Автоматически применяемые настройки безопасности, которые настраиваются разработчиками. Дополнительную информацию см. на нашей странице о настройках безопасности . |
Ограничение скорости [*] | 60 запросов в минуту |
Последнее обновление | декабрь 2023 г. |
Посмотрите примеры , чтобы изучить возможности этих вариантов модели.
[*] Токен эквивалентен примерно 4 символам для моделей Gemini. 100 токенов — это примерно 60-80 английских слов.
[**] Число запросов в минуту: количество запросов в минуту.
TPM: токенов в минуту
RPD: запросов в день
TPD: токенов в день
Из-за ограничений емкости указанные ограничения максимальной скорости не гарантируются.
Шаблоны названий версий моделей
Модели Gemini доступны как в предварительной , так и в стабильной версии. В своем коде вы можете использовать один из следующих форматов имени модели, чтобы указать, какую модель и версию вы хотите использовать.
Последняя: указывает на новейшую версию модели для указанного поколения и модификации. Базовая модель регулярно обновляется и может представлять собой предварительную версию. Этот псевдоним следует использовать только в приложениях и прототипах исследовательского тестирования.
Чтобы указать последнюю версию, используйте следующий шаблон:
<model>-<generation>-<variation>-latest
. Например,gemini-1.0-pro-latest
.Последняя стабильная версия: указывает на самую последнюю стабильную версию, выпущенную для указанного поколения и варианта модели.
Чтобы указать последнюю стабильную версию, используйте следующий шаблон:
<model>-<generation>-<variation>
. Например,gemini-1.0-pro
.Стабильная: указывает на конкретную стабильную модель. Стабильные модели не меняются. Большинство производственных приложений должны использовать определенную стабильную модель.
Чтобы указать стабильную версию, используйте следующий шаблон:
<model>-<generation>-<variation>-<version>
. Например,gemini-1.0-pro-001
.