Подсказка с медиа-файлами


Gemini API поддерживает запросы с текстовыми, графическими, аудио- и видеоданными, также известные как мультимодальные запросы, что означает, что вы можете включать эти типы медиафайлов в свои запросы. Для небольших файлов вы можете указать модель Близнецов непосредственно на локальный файл при предоставлении подсказки. Загрузите большие файлы с помощью API файла, прежде чем включать их в подсказки.

API файла позволяет сохранить до 20 ГБ файлов на проект, каждый файл не превышает 2 ГБ размером. Файлы хранятся в течение 48 часов, и к ним можно получить доступ с помощью вашего ключа API для генерации в течение этого периода времени, и их нельзя загрузить из API. API Files API доступен бесплатно во всех регионах, где доступен API Gemini .

Файл API обрабатывает входы, которые можно использовать для генерации контента с помощью model.generateContent или model.streamGenerateContent . Информацию о допустимых форматах файлов (типах MIME) и поддерживаемых моделях см. в разделе Поддерживаемые форматы файлов .

В этом руководстве показано, как использовать File API для загрузки мультимедийных файлов и включения их в вызов GenerateContent API Gemini. Дополнительные сведения см. в примерах кода .

Поддерживаемые форматы файлов

Модели Gemini поддерживают запросы к файлам нескольких форматов. В этом разделе объясняются особенности использования общих медиаформатов для подсказок, в частности изображений, аудио, видео и обычных текстовых файлов. Вы можете использовать медиафайлы для запроса только в определенных версиях моделей, как показано в следующей таблице.

Модель Изображений Аудио видео Простой текст
Gemini 1.5 Pro (выпуск 008 и новее) ✔ (максимум 3600 файлов изображений)
Близнецы Про Видение ✔ (максимум 16 файлов изображений)

Форматы изображений

Вы можете использовать данные изображения для подсказок на моделях gemini-pro-vision и gemini-1.5-pro . При использовании изображений для подсказок на них распространяются следующие ограничения и требования:

  • Изображения должны относиться к одному из следующих типов MIME данных изображения:
    • PNG - изображение/png
    • JPEG — изображение/jpeg
    • WEBP — изображение/webp
    • HEIC — изображение/heic
    • HEIF - изображение/хеф
  • Максимум 16 отдельных изображений для gemini-pro-vision и 3600 изображений для gemini-1.5-pro
  • Никаких конкретных ограничений на количество пикселей в изображении; однако изображения большего размера уменьшаются до максимального разрешения 3072 x 3072, сохраняя при этом исходное соотношение сторон.

Аудио форматы

Вы можете использовать аудиоданные для подсказок с помощью модели gemini-1.5-pro . Когда вы используете аудио для подсказок, на них распространяются следующие ограничения и требования:

  • Аудиоданные поддерживаются в следующих распространенных типах MIME аудиоформатов:
    • WAV — аудио/wav
    • MP3 - аудио/mp3
    • AIFF — аудио/aiff
    • AAC — аудио/aac
    • OGG Vorbis — аудио/ogg
    • FLAC — аудио/flac
  • Максимальная поддерживаемая продолжительность аудиоданных в одном приглашении — 9,5 часов.
  • Аудиофайлы преобразуются до разрешения данных 16 Кбит/с, а несколько каналов звука объединяются в один канал.
  • Конкретного ограничения на количество аудиофайлов в одном приглашении нет; однако общая продолжительность всех аудиофайлов в одном приглашении не может превышать 9,5 часов.

Видео форматы

Вы можете использовать видеоданные для подсказок с моделью gemini-1.5-pro .

  • Видеоданные поддерживаются в следующих распространенных типах MIME видеоформатов:

    • видео/mp4
    • видео/mpeg
    • видео/мов
    • видео/ави
    • видео/x-flv
    • видео/миль на галлон
    • видео/вебм
    • видео/wmv
    • видео/3gpp
  • Служба File API преобразует видео в изображения со скоростью 1 кадр в секунду (FPS) и может быть изменена для обеспечения наилучшего качества вывода. Отдельные изображения занимают 258 токенов независимо от разрешения и качества.

Обычные текстовые форматы

File API поддерживает загрузку текстовых файлов со следующими типами MIME:

  • текстовый/обычный
  • текст/html
  • текст/css
  • текст/JavaScript
  • приложение/x-javascript
  • текст/x-машинопись
  • приложение/x-typescript
  • текст/CSV
  • текст/уценка
  • текст/х-питон
  • приложение/x-python-код
  • приложение/json
  • текст/xml
  • приложение/rtf
  • текст/rtf

Для обычных текстовых файлов с типом MIME, которого нет в списке, вы можете попробовать указать один из вышеуказанных типов MIME вручную.