Richiesta di file multimediali


Visualizza su ai.google.dev Esegui in Google Colab Visualizza il codice sorgente su GitHub

L'API Gemini supporta prompt con dati di testo, immagini, audio e video, noti anche come prompt multimodali, il che significa che puoi includere questi tipi di file multimediali nei tuoi prompt. Per i file di piccole dimensioni, puoi indirizzare il modello Gemini direttamente a un file locale quando fornisci un prompt. Carica file di dimensioni maggiori con l'API File prima di includerli nei prompt.

L'API File consente di archiviare fino a 20 GB di file per progetto, con dimensioni che ogni file non supera i 2 GB. I file vengono archiviati per 48 ore e sono accessibili con la chiave API per la generazione entro questo periodo di tempo e non possono essere scaricati dall'API. L'API Files è disponibile senza costi in tutte le regioni in cui è disponibile l'API Gemini.

L'API File gestisce gli input che possono essere utilizzati per generare contenuti con model.generateContent o model.streamGenerateContent. Per informazioni sui formati di file validi (tipi MIME) e sui modelli supportati, consulta Formati di file supportati.

Questa guida mostra come utilizzare l'API File per caricare file multimediali e includerli in una chiamata GenerateContent all'API Gemini. Per saperne di più, consulta gli esempi di codice.

Formati di file supportati

Gemini supportano i prompt con più formati file. Questa sezione illustra alcune considerazioni relative all'utilizzo di formati multimediali generici per prompt, in particolare file di immagine, audio, video e testo normale. Puoi utilizzare i file multimediali per inviare prompt solo con versioni specifiche del modello, come mostrato nella tabella seguente.

Modello Immagini Audio Video Testo normale
Gemini 1.5 Pro (release 008 e successive) ✔ (massimo 3600 file immagine)
Gemini Pro Vision ✔ (massimo 16 file immagine)

Formati dell'immagine

Puoi utilizzare i dati immagine per i prompt con i modelli gemini-pro-vision e gemini-1.5-pro. Quando utilizzi immagini per i prompt, queste sono soggette alle seguenti limitazioni e requisiti:

  • Le immagini devono essere in uno dei seguenti tipi MIME di dati immagine:
    • PNG - immagine/png
    • JPEG - immagine/jpeg
    • WEBP - immagine/webp
    • HEIC - immagine/heic
    • HEIF - immagine/heif
  • Massimo 16 immagini singole per gemini-pro-vision e immagini sferiche per gemini-1.5-pro
  • Non esistono limiti specifici al numero di pixel in un'immagine; tuttavia, le immagini più grandi vengono ridotte per adattarsi a una risoluzione massima di 3072 x 3072, mantenendo le proporzioni originali.

Formati audio

Puoi utilizzare i dati audio per i prompt con il modello gemini-1.5-pro. Quando utilizzi l'audio per i prompt, questi sono soggetti alle seguenti limitazioni e requisiti:

  • I dati audio sono supportati nei seguenti tipi MIME comuni:
    • WAV: audio/wav
    • MP3: audio/mp3
    • AIFF - audio/aiff
    • AAC - audio/aac
    • OGG Vorbis - audio/ogg
    • FLAC - audio/flac
  • La durata massima supportata dei dati audio in un singolo prompt è di 9,5 ore.
  • I file audio vengono ricampionati a una risoluzione dei dati di 16 Kbps e più canali audio vengono combinati in un unico canale.
  • Non esiste un limite specifico al numero di file audio in un singolo prompt; tuttavia, la lunghezza totale combinata di tutti i file audio in un singolo prompt non può superare le 9,5 ore.

Formati video

Puoi usare i dati video per i prompt con il modello gemini-1.5-pro.

  • I dati video sono supportati nei seguenti tipi MIME comuni:

    • video/mp4
    • video/mpeg
    • video/mov
    • video/avi
    • video/x-flv
    • video/mpg
    • video/webm
    • video/wmv
    • video/3GPP
  • Il servizio API File campiona i video in immagini a 1 frame al secondo (FPS) e può essere soggetto a modifiche per offrire la migliore qualità di inferenza. Le singole immagini richiedono 258 token, indipendentemente dalla risoluzione e dalla qualità.

Formati di testo normale

L'API File supporta il caricamento di file di testo normale con i seguenti tipi MIME:

  • testo/normale
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • testo/x-typescript
  • application/x-typescript
  • testo/csv
  • testo/markdown
  • testo/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • applicazione/rtf
  • testo/rtf

Per i file di testo normale con un tipo MIME non presente nell'elenco, puoi provare a specificare manualmente uno dei tipi MIME precedenti.