Gemini

Gemini — это семейство генеративных моделей искусственного интеллекта, которые позволяют разработчикам создавать контент и решать проблемы. Эти модели разработаны и обучены для обработки как текста, так и изображений в качестве входных данных. В этом руководстве представлена ​​информация о каждом варианте модели, которая поможет вам решить, какая из них лучше всего подходит для вашего случая использования.

Безопасность и использование по назначению

Генеративные модели искусственного интеллекта — это мощные инструменты, но они не лишены своих ограничений. Их универсальность и применимость иногда могут привести к неожиданным результатам, например, к неточным, предвзятым или оскорбительным результатам. Постобработка и тщательная ручная оценка необходимы для ограничения риска вреда от таких результатов. Дополнительные рекомендации по безопасному использованию см. в руководстве по безопасности .

Модели, предоставляемые Gemini API, можно использовать для широкого спектра приложений генеративного искусственного интеллекта и обработки естественного языка (NLP). Использование этих функций доступно только через Gemini API или веб-приложение Google AI Studio. Использование вами Gemini API также регулируется Политикой запрещенного использования генеративного искусственного интеллекта и условиями обслуживания Gemini API .

Варианты модели

Gemini API предлагает различные модели, оптимизированные для конкретных случаев использования. Вот краткий обзор доступных вариантов Gemini:

Вариант модели Вход(ы) Выход Оптимизирован для
Близнецы 1.5 Pro (предварительная версия) Аудио, изображения и текст Текст Задачи рассуждения, включая (но не ограничиваясь ими) генерацию кода и текста, редактирование текста, решение проблем, извлечение и генерацию данных.
Близнецы 1.5 Flash (предварительный просмотр) Аудио, изображения и текст Текст Быстрая и универсальная производительность при выполнении самых разных задач.
Близнецы 1.0 Про Текст Текст Задачи на естественном языке, многоходовой текстовый и кодовый чат, а также генерация кода
Близнецы 1.0 Про Видение Изображения и текст Текст Производительность оптимизирована для задач, связанных с визуальными эффектами, таких как создание описаний изображений или идентификация объектов на изображениях.
Встраивание текста Текст Встраивание текста Создавайте эластичные вставки текста с размером до 768 для текста длиной до 2048 токенов.
Встраивание Текст Встраивание текста Создавайте встраивания текста с 768 измерениями для текста длиной до 2048 токенов.
АКА Текст Текст Выполнение задач, связанных с присвоением вопросов и ответов, над предоставленным текстом.

В следующей таблице описаны атрибуты моделей Gemini, общие для всех вариантов модели:

Атрибут Описание
Данные обучения Ограничение знаний Близнецов приходится на начало 2023 года. Знания о событиях после этого времени ограничены.
Поддерживаемые языки Посмотреть доступные языки
Настраиваемые параметры модели
  • Топ р
  • Топ к
  • Температура
  • Остановить последовательность
  • Максимальная длина вывода
  • Количество кандидатов на ответ

Информацию о каждом из этих параметров см. в разделе «Параметры модели» руководства по генеративным моделям.

Близнецы 1.5 Pro (предварительная версия)

Gemini 1.5 Pro — это мультимодальная модель среднего размера, оптимизированная для широкого спектра задач рассуждения, таких как:

  • Генерация кода
  • Генерация текста
  • Редактирование текста
  • Решение проблем
  • Генерация рекомендаций
  • Извлечение информации
  • Извлечение или генерация данных
  • Создание ИИ-агентов

1.5 Pro может обрабатывать большие объемы данных одновременно, включая 1 час видео, 9,5 часов аудио, кодовые базы с более чем 30 000 строк кода или более 700 000 слов.

1.5 Pro способен решать задачи обучения с нулевым, однократным и небольшим количеством шагов.

Детали модели

Свойство Описание
Код модели models/gemini-1.5-pro-latest
Входы Аудио, изображения и текст
Выход Текст
Поддерживаемые методы генерации generateContent
Лимит входных токенов [**] 1 048 576
Лимит выходных токенов [**] 8,192
Максимальное количество изображений в запросе 3600
Максимальная длина видео 1 час
Максимальная длина звука Примерно 9,5 часов
Максимальное количество аудиофайлов на запрос 1
Безопасность модели Автоматически применяемые настройки безопасности, которые настраиваются разработчиками. Дополнительную информацию см. на нашей странице о настройках безопасности .
Ограничения ставок [*]
Бесплатно:
  • 2 об/мин
  • 32 000 транзакций в минуту
  • 50 РПД
  • 46 080 000 тонн в день
Плати как сможешь:
  • 360 об/мин
  • 10 миллионов транзакций в минуту
  • 10 000 РПД
  • 14 400 000 000 тонн в день
Два миллиона контекста:
  • 1 об/мин
  • 2 миллиона транзакций в минуту
  • 50 РПД
Системные инструкции Поддерживается
Режим JSON Поддерживается
Последняя версия gemini-1.5-pro-latest
Последняя стабильная версия gemini-1.5-pro
Последнее обновление апрель 2024 г.

Gemini 1.5 Flash (превью)

Gemini 1.5 Flash — быстрая и универсальная мультимодальная модель для масштабирования под самые разнообразные задачи.

Детали модели

Свойство Описание
Код модели gemini-1.5-flash
Вход(ы) Аудио, изображения и текст
Выход Текст
Поддерживаемые методы генерации generateContent
Лимит входных токенов [**] 1 048 576
Лимит выходных токенов [**] 8,192
Максимальное количество изображений в запросе 3600
Максимальная длина видео 1 час
Максимальная длина звука Примерно 9,5 часов
Максимальное количество аудиофайлов на запрос 1
Безопасность модели Автоматически применяемые настройки безопасности, которые настраиваются разработчиками. Дополнительную информацию см. на нашей странице о настройках безопасности .
Ограничения ставок [*]
Бесплатно:
  • 15 об/мин
  • 1 миллион транзакций в минуту
  • 1500 РПД
Плати как сможешь:
  • 360 об/мин
  • 10 миллионов транзакций в минуту
  • 10 000 РПД
Системные инструкции Поддерживается
Режим JSON Поддерживается
Последняя версия gemini-1.5-flash-latest
Последняя стабильная версия gemini-1.5-flash

Близнецы 1.0 Про

Gemini 1.0 Pro — это модель НЛП, которая решает такие задачи, как многоходовой текстовый и кодовый чат, а также генерация кода.

1.0 Pro способен решать задачи обучения с нулевым, однократным и небольшим количеством шагов.

Детали модели

Свойство Описание
Код модели models/gemini-pro
Вход Текст
Выход Текст
Поддерживаемые методы генерации
Python: generate_content
ОСТАЛЬНОЕ: generateContent
Ограничения ставок [*]
Бесплатно:
  • 15 об/мин
  • 32 000 транзакций в минуту
  • 1500 РПД
  • 46 080 000 тонн в день
Плати как сможешь:
  • 360 об/мин
  • 120 000 транзакций в минуту
  • 30 000 РПД
  • 172 800 000 тонн в день
Системные инструкции Не поддерживается
Режим JSON Не поддерживается
Последняя версия gemini-1.0-pro-latest
Последняя стабильная версия gemini-1.0-pro
Стабильные версии gemini-1.0-pro-001
Последнее обновление февраль 2024 г.

Близнецы 1.0 Про Видение

Gemini 1.0 Pro Vision — это мультимодальная модель с оптимизированной производительностью, которая может выполнять задачи, связанные с визуальными эффектами. Например, Pro Vision 1.0 может генерировать описания изображений, идентифицировать объекты, присутствующие на изображениях, предоставлять информацию о местах или объектах, присутствующих на изображениях, и многое другое.

1.0 Pro Vision способна решать задачи с нулевым, одноразовым и малократным выполнением задач.

Детали модели

Свойство Описание
Код модели models/gemini-pro-vision
Входы Текст и изображения
Выход Текст
Поддерживаемые методы генерации
Python: generate_content
ОСТАЛЬНОЕ: generateContent
Лимит входных токенов [*] 12 288
Лимит выходных токенов [*] 4096
Максимальный размер изображения Безлимитный
Максимальное количество изображений в запросе 16
Максимальная длина видео 2 минуты
Максимальное количество видео на запрос 1
Безопасность модели Автоматически применяемые настройки безопасности, которые настраиваются разработчиками. Дополнительную информацию см. на нашей странице о настройках безопасности .
Ограничение скорости [*] 60 запросов в минуту
Последняя версия gemini-1.0-pro-vision-latest
Последняя стабильная версия gemini-1.0-pro-vision
Последнее обновление декабрь 2023 г.

Встраивание текста и встраивание

Встраивание текста

Вы можете использовать модель внедрения текста для создания внедрений текста для входного текста. Для получения дополнительной информации о модели внедрения текста посетите документацию по внедрению текста в разделе Генеративный ИИ на Vertex AI .

Модель внедрения текста оптимизирована для создания внедрений с 768 измерениями для текста длиной до 2048 токенов. Встраивание текста предлагает размеры эластичного внедрения до 768. Вы можете использовать эластичное внедрение для создания меньших размеров вывода и потенциально сэкономить затраты на вычисления и хранение с незначительной потерей производительности.

Детали модели
Свойство Описание
Код модели models/text-embedding-004 ( text-embedding-preview-0409 в Vertex AI )
Вход Текст
Выход Встраивание текста
Лимит входных токенов 2048
Размер выходного размера 768
Поддерживаемые методы генерации
Питон: embed_content
ОСТАЛЬНОЕ: embedContent
Безопасность модели Нет регулируемых настроек безопасности.
Ограничение скорости [*] 1500 запросов в минуту
Последнее обновление апрель 2024 г.

Встраивание

Вы можете использовать модель внедрения для создания внедрений текста для входного текста.

Модель внедрения оптимизирована для создания внедрений с 768 измерениями для текста длиной до 2048 токенов.

Встраивание деталей модели
Свойство Описание
Код модели models/embedding-001
Вход Текст
Выход Встраивание текста
Лимит входных токенов 2048
Размер выходного размера 768
Поддерживаемые методы генерации
Питон: embed_content
ОСТАЛЬНОЕ: embedContent
Безопасность модели Нет регулируемых настроек безопасности.
Ограничение скорости [*] 1500 запросов в минуту
Последнее обновление декабрь 2023 г.

АКА

Вы можете использовать модель AQA для выполнения задач, связанных с атрибутивными вопросами-ответами (AQA), над документом, корпусом или набором отрывков. Модель AQA возвращает ответы на вопросы, основанные на предоставленных источниках, а также оценивает вероятность ответа.

Детали модели

Свойство Описание
Код модели models/aqa
Вход Текст
Выход Текст
Поддерживаемые методы генерации
Python: GenerateAnswerRequest
ОТДЫХ: generateAnswer
Поддерживаемые языки Английский
Лимит входных токенов [**] 7,168
Лимит выходных токенов [**] 1024
Безопасность модели Автоматически применяемые настройки безопасности, которые настраиваются разработчиками. Дополнительную информацию см. на нашей странице о настройках безопасности .
Ограничение скорости [*] 60 запросов в минуту
Последнее обновление декабрь 2023 г.

Посмотрите примеры , чтобы изучить возможности этих вариантов модели.

[*] Токен эквивалентен примерно 4 символам для моделей Gemini. 100 токенов — это примерно 60-80 английских слов.

[**] Число запросов в минуту: количество запросов в минуту.
TPM: токенов в минуту
RPD: запросов в день
TPD: токенов в день

Из-за ограничений емкости указанные ограничения максимальной скорости не гарантируются.

Шаблоны названий версий моделей

Модели Gemini доступны как в предварительной , так и в стабильной версии. В своем коде вы можете использовать один из следующих форматов имени модели, чтобы указать, какую модель и версию вы хотите использовать.

  • Последняя: указывает на новейшую версию модели для указанного поколения и модификации. Базовая модель регулярно обновляется и может представлять собой предварительную версию. Этот псевдоним следует использовать только в приложениях и прототипах исследовательского тестирования.

    Чтобы указать последнюю версию, используйте следующий шаблон: <model>-<generation>-<variation>-latest . Например, gemini-1.0-pro-latest .

  • Последняя стабильная версия: указывает на самую последнюю стабильную версию, выпущенную для указанного поколения и варианта модели.

    Чтобы указать последнюю стабильную версию, используйте следующий шаблон: <model>-<generation>-<variation> . Например, gemini-1.0-pro .

  • Стабильная: указывает на конкретную стабильную модель. Стабильные модели не меняются. Большинство производственных приложений должны использовать определенную стабильную модель.

    Чтобы указать стабильную версию, используйте следующий шаблон: <model>-<generation>-<variation>-<version> . Например, gemini-1.0-pro-001 .