Cómo solicitar instrucciones con archivos multimedia


Ver en ai.google.dev Ejecutar en Google Colab Ver el código fuente en GitHub

La API de Gemini admite instrucciones con datos de texto, imagen, audio y video, también conocidas como instrucciones multimodales, lo que significa que puedes incluir esos tipos de archivos multimedia en tus instrucciones. Para archivos pequeños, puedes apuntar el modelo de Gemini a un archivo local cuando proporciones una instrucción. Sube archivos más grandes con la API de File antes de incluirlos en las instrucciones.

La API de File te permite almacenar hasta 20 GB de archivos por proyecto, y cada archivo no debe superar los 2 GB de tamaño. Los archivos se almacenan por 48 horas y se puede acceder a ellos con tu clave de API para generarlos dentro de ese período y no se pueden descargar desde la API. La API de Files está disponible sin costo en todas las regiones donde está disponible la API de Gemini.

La API de File controla las entradas que se pueden usar para generar contenido con model.generateContent o model.streamGenerateContent. Para obtener información sobre los formatos de archivo válidos (tipos de MIME) y los modelos compatibles, consulta Formatos de archivo admitidos.

En esta guía, se muestra cómo usar la API de File para subir archivos multimedia e incluirlos en una llamada GenerateContent a la API de Gemini. Para obtener más información, consulta las muestras de código.

Formatos de archivo compatibles

Los modelos de Gemini admiten instrucciones con múltiples formatos de archivo. En esta sección, se explican las consideraciones sobre el uso de formatos multimedia generales para instrucciones, específicamente archivos de imagen, audio, video y texto sin formato. Puedes usar archivos multimedia para hacer instrucciones solo con versiones específicas del modelo, como se muestra en la siguiente tabla.

Modelo Imágenes Audio Video Texto sin formato
Gemini 1.5 Pro (versión 008 y posteriores) ✔ (3600 archivos de imagen máx.)

Formatos de imagen

Puedes usar datos de imágenes para crear instrucciones con los modelos de Gemini 1.5. Cuando usas imágenes para las instrucciones, estas están sujetas a las siguientes limitaciones y requisitos:

  • Las imágenes deben estar en uno de los siguientes tipos de MIME de datos de imagen:
    • PNG: image/png
    • JPEG: image/jpeg
    • WEBP: image/webp
    • HEIC: image/heic
    • HEIF: image/heif
  • Un máximo de 3,600 imágenes para los modelos de Gemini 1.5.
  • No hay límites específicos para la cantidad de píxeles de una imagen. Sin embargo, las imágenes más grandes se reducen para adaptarse a una resolución máxima de 3072 x 3072 y, al mismo tiempo, conservar su relación de aspecto original.

Formatos de audio

Puedes usar datos de audio para crear instrucciones con los modelos de Gemini 1.5. Cuando usas audio para las instrucciones, estas están sujetas a las siguientes limitaciones y requisitos:

  • Los datos de audio son compatibles con los siguientes tipos de MIME de formato de audio comunes:
    • WAV: audio/WAV
    • MP3: audio/mp3
    • AIFF: audio/aiff
    • AAC: audio/aac
    • OGG Vorbis - audio/ogg
    • FLAC: audio/flac
  • La duración máxima admitida de datos de audio en un solo mensaje es de 9.5 horas.
  • Los archivos de audio se vuelven a muestrear a una resolución de datos de 16 Kbps, y se combinan varios canales de audio en un solo canal.
  • No hay un límite específico para la cantidad de archivos de audio en un solo mensaje. Sin embargo, la duración combinada total de todos los archivos de audio en un solo mensaje no puede superar las 9.5 horas.

Formatos de video

Puedes usar datos de video para crear instrucciones con los modelos de Gemini 1.5.

  • Los datos de video son compatibles con los siguientes tipos de MIME de formato de video comunes:

    • video/mp4
    • video/mpeg
    • video/movimiento
    • video/avi
    • video/x-flv
    • video/mpg
    • video/webm
    • video/WMV
    • video/3gpp
  • El servicio de la API de archivos muestra videos en imágenes a 1 fotograma por segundo (FPS) y puede estar sujeto a cambios para proporcionar la mejor calidad de inferencia. Las imágenes individuales consumen 258 tokens, sin importar la resolución ni la calidad.

Formatos de texto sin formato

La API de File admite la carga de archivos de texto sin formato con los siguientes tipos de MIME:

  • text/plain
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • texto/x-typescript
  • aplicación/x-typescript
  • texto/csv
  • texto/markdown
  • texto/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • aplicación/rtf
  • texto/rtf

Para los archivos de texto sin formato con un tipo de MIME que no están en la lista, puedes intentar especificar uno de los tipos de MIME anteriores manualmente.