Visualizza su ai.google.dev | Esegui in Google Colab | Visualizza il codice sorgente su GitHub |
L'API Gemini supporta i prompt con dati di testo, immagine, audio e video, noti anche come prompt multimodali, il che significa che puoi includere questi tipi di file multimediali nei tuoi prompt. Per file di piccole dimensioni, puoi puntare il modello Gemini direttamente a un file locale. Carica i file di dimensioni maggiori con l'API File prima di includerli nei prompt.
L'API File ti consente di archiviare fino a 20 GB di file per progetto e ogni file non ha una dimensione superiore a 2 GB. I file rimangono archiviati per 48 ore e sono accessibili con la chiave API per la generazione entro questo periodo di tempo e non possono essere scaricati dall'API. L'API Files è disponibile senza costi in tutte le regioni in cui è disponibile l'API Gemini.
L'API File gestisce gli input che possono essere utilizzati per generare contenuti con model.generateContent
o model.streamGenerateContent
. Per informazioni sui formati di file validi (tipi MIME) e sui modelli supportati, consulta Formati di file supportati.
Questa guida mostra come utilizzare l'API File per caricare file multimediali e includerli in una chiamata GenerateContent
all'API Gemini. Per ulteriori informazioni, consulta gli
esempi
di codice.
Formati di file supportati
I modelli Gemini supportano i prompt con più formati file. Questa sezione illustra le considerazioni sull'utilizzo di formati multimediali generici per i prompt, in particolare file di immagine, audio, video e di testo normale. Puoi utilizzare i file multimediali per la richiesta solo con versioni specifiche del modello, come mostrato nella tabella seguente.
Modello | Immagini | Audio | Video | Testo normale |
---|---|---|---|---|
Gemini 1.5 Pro (release 008 e successive) | ✔ (file immagine massimo 3600) | ✔ | ✔ | ✔ |
Formati dell'immagine
Puoi utilizzare i dati immagine per i prompt con i modelli Gemini 1.5. Quando utilizzi immagini per i prompt, queste sono soggette alle limitazioni e ai requisiti seguenti:
- Le immagini devono essere in uno dei seguenti tipi MIME di dati immagine:
- PNG - immagine/png
- JPEG: immagine/jpeg
- WEBP - immagine/webp
- HEIC - immagine/heic
- HEIF - immagine/heif
- Massimo 3600 immagini per i modelli Gemini 1.5.
- Non ci sono limiti specifici al numero di pixel in un'immagine; tuttavia, le immagini più grandi vengono ridimensionate per adattarsi a una risoluzione massima di 3072 x 3072 mantenendo le proporzioni originali.
Formati audio
Puoi utilizzare i dati audio per i prompt con i modelli Gemini 1.5. Quando utilizzi l'audio per i prompt, questi sono soggetti alle limitazioni e ai requisiti seguenti:
- I dati audio sono supportati nel seguente formato audio comune tipi MIME:
- WAV: audio/wav
- MP3: audio/mp3
- AIFF - audio/aiff
- AAC: audio/aac
- OGG Vorbis - audio/ogg
- FLAC: audio/flac
- La durata massima supportata dei dati audio in un singolo prompt è 9,5 ore.
- I file audio vengono ricampionati a una risoluzione dati di 16 Kbps e più canali audio vengono combinati in un unico canale.
- Non esiste un limite specifico al numero di file audio in un singolo prompt; tuttavia, la durata totale combinata di tutti i file audio in un singolo prompt non può superare le 9,5 ore.
Formati video
Puoi utilizzare i dati video per i prompt con i modelli Gemini 1.5.
I dati video sono supportati nel seguente formato video comune tipi MIME:
- video/mp4
- video/mpeg
- video/mov
- video/avi
- video/x-flv
- video/mpg
- video/webm
- video/wmv
- video/3Gpp
Il servizio File API campiona i video in immagini a 1 frame al secondo (f/s) e può essere soggetto a modifiche per fornire la migliore qualità di inferenza. Le singole immagini occupano 258 token indipendentemente da risoluzione e qualità.
Formati di testo normale
L'API File supporta il caricamento di file di testo normale con i seguenti tipi MIME:
- testo/normale
- text/html
- text/css
- text/javascript
- application/x-javascript
- text/x-typescript
- application/x-typescript
- testo/csv
- testo/markdown
- text/x-python
- application/x-python-code
- application/json
- text/xml
- applicazione/rtf
- testo/rtf
Per i file di testo normale con un tipo MIME non presente nell'elenco, puoi provare a specificare manualmente uno dei tipi MIME precedenti.