Gemini API поддерживает запросы с текстовыми, графическими, аудио- и видеоданными, также известные как мультимодальные запросы, что означает, что вы можете включать эти типы медиафайлов в свои запросы. Для небольших файлов вы можете указать модель Близнецов непосредственно на локальный файл при предоставлении подсказки. Загрузите большие файлы с помощью API файла, прежде чем включать их в подсказки.
API файла позволяет сохранить до 20 ГБ файлов на проект, каждый файл не превышает 2 ГБ размером. Файлы хранятся в течение 48 часов, и к ним можно получить доступ с помощью вашего ключа API для генерации в течение этого периода времени, и их нельзя загрузить из API. API Files API доступен бесплатно во всех регионах, где доступен API Gemini .
Файл API обрабатывает входы, которые можно использовать для генерации контента с помощью model.generateContent
или model.streamGenerateContent
. Информацию о допустимых форматах файлов (типах MIME) и поддерживаемых моделях см. в разделе Поддерживаемые форматы файлов .
В этом руководстве показано, как использовать File API для загрузки мультимедийных файлов и включения их в вызов GenerateContent
API Gemini. Дополнительные сведения см. в примерах кода .
Поддерживаемые форматы файлов
Модели Gemini поддерживают запросы к файлам нескольких форматов. В этом разделе объясняются особенности использования общих медиаформатов для подсказок, в частности изображений, аудио, видео и обычных текстовых файлов. Вы можете использовать медиафайлы для запроса только в определенных версиях моделей, как показано в следующей таблице.
Модель | Изображений | Аудио | видео | Простой текст |
---|---|---|---|---|
Gemini 1.5 Pro (выпуск 008 и новее) | ✔ (максимум 3600 файлов изображений) | ✔ | ✔ | ✔ |
Близнецы Про Видение | ✔ (максимум 16 файлов изображений) | ✔ |
Форматы изображений
Вы можете использовать данные изображения для подсказок на моделях gemini-pro-vision
и gemini-1.5-pro
. При использовании изображений для подсказок на них распространяются следующие ограничения и требования:
- Изображения должны относиться к одному из следующих типов MIME данных изображения:
- PNG - изображение/png
- JPEG — изображение/jpeg
- WEBP — изображение/webp
- HEIC — изображение/heic
- HEIF - изображение/хеф
- Максимум 16 отдельных изображений для
gemini-pro-vision
и 3600 изображений дляgemini-1.5-pro
- Никаких конкретных ограничений на количество пикселей в изображении; однако изображения большего размера уменьшаются до максимального разрешения 3072 x 3072, сохраняя при этом исходное соотношение сторон.
Аудио форматы
Вы можете использовать аудиоданные для подсказок с помощью модели gemini-1.5-pro
. Когда вы используете аудио для подсказок, на них распространяются следующие ограничения и требования:
- Аудиоданные поддерживаются в следующих распространенных типах MIME аудиоформатов:
- WAV — аудио/wav
- MP3 - аудио/mp3
- AIFF — аудио/aiff
- AAC — аудио/aac
- OGG Vorbis — аудио/ogg
- FLAC — аудио/flac
- Максимальная поддерживаемая продолжительность аудиоданных в одном приглашении — 9,5 часов.
- Аудиофайлы преобразуются до разрешения данных 16 Кбит/с, а несколько каналов звука объединяются в один канал.
- Конкретного ограничения на количество аудиофайлов в одном приглашении нет; однако общая продолжительность всех аудиофайлов в одном приглашении не может превышать 9,5 часов.
Видео форматы
Вы можете использовать видеоданные для подсказок с моделью gemini-1.5-pro
.
Видеоданные поддерживаются в следующих распространенных типах MIME видеоформатов:
- видео/mp4
- видео/mpeg
- видео/мов
- видео/ави
- видео/x-flv
- видео/миль на галлон
- видео/вебм
- видео/wmv
- видео/3gpp
Служба File API преобразует видео в изображения со скоростью 1 кадр в секунду (FPS) и может быть изменена для обеспечения наилучшего качества вывода. Отдельные изображения занимают 258 токенов независимо от разрешения и качества.
Обычные текстовые форматы
File API поддерживает загрузку текстовых файлов со следующими типами MIME:
- текстовый/обычный
- текст/html
- текст/css
- текст/JavaScript
- приложение/x-javascript
- текст/x-машинопись
- приложение/x-typescript
- текст/CSV
- текст/уценка
- текст/х-питон
- приложение/x-python-код
- приложение/json
- текст/xml
- приложение/rtf
- текст/rtf
Для обычных текстовых файлов с типом MIME, которого нет в списке, вы можете попробовать указать один из вышеуказанных типов MIME вручную.